開啟主選單

求真百科

搜索引擎收錄

搜索引擎收錄
圖片來自創旗

搜索引擎收錄是指程序通過辨別把網站內容進行收錄,同時會對這些內容進行價值以及其他方面的辨別。

想要在搜索引擎中有好的排名表現,網站的收錄是基礎,從另一方面講,頁面收錄的數量級別也代表着網站的整體質量。[1]

在當下的網絡時代中,網站已經成為互聯網中不可替代的存在,不過良莠不齊的網站品質讓用戶在抉擇間難以取捨,其實這主要是因為搜索引擎對網站收錄多少的問題,實際上就是指搜索引擎通過程序辨別網站中的內容,從而挑選優質收錄提升網站的品質和排名,對於企業而言,網站收錄的提升能夠更多的改善網站的現有排名情況,但是並不是每個網站的搜索引擎收錄都能有保障。[2]

目錄

基本概述

搜索引擎收錄是搜索引擎收錄一個網站頁面具體的數量值,收錄的數量越多,收錄的時間越快,證明此網站對搜索引擎比較友好。

比較常用的搜索引擎收錄有baidu(百度)google(谷歌)yahoo(雅虎)sogou(搜狗)youdao(有道)soso(搜搜)bing(必應)、360(360)。

收錄原理

收集待索引網頁的url

Internet上存在的網頁數量絕對是個天文數字,每天新增的網頁也不計其數,搜索引擎需要首先找到要索引收錄的對象。

具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至於是否叫這麼兩個名字更是眾說紛紜,當然,名字本身並不重要——至少到目前為止。

主流的看法是,在Google的robots中,的確存在着相當部分專門為真正的索引收錄頁準備「素材」的robots——在這裡我們姑且仍稱之為FreshBot吧。

——它們的任務便是每天不停地掃描Internet,以發現並維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網頁時,目的並不在於索引這個網頁,而是找出這個網頁中的所有鏈接。

——當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網頁時不具備「排它性」。

也即是說,位於Google不同的數據中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、緩存頁面時則不會出現類似的情況。

即Google會限制由某個數據中心的robots來完成這項工作的,而不會出現兩個數據中心同時索引網頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務器訪問日誌中時常可以看到源自不同IP的GoogleBot在很短的時間內多次訪問同一個網頁證明FreshBot的存在。

因此,有時候發現GoogleBot頻繁訪問網站也不要高興得太早,也許其根本不是在索引網頁而只是在掃描url。

FreshBot記錄的信息包括網頁的url、TimeStamp(網頁創建或更新的時間戳),以及網頁的Head信息(註:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網頁信息的,而是將這部分工作交由DeepBot完成。不過,筆者傾向於前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網站設置禁止索引、收錄的頁面排除在外,以提高效率,而網站進行此類設置時除使用robots.txt外還有相當部分是通過mata標籤中的「noindex」實現的,不讀取目標網頁的head似乎是無法實現這一點的),如果網頁不可訪問,比如說網絡中斷或服務器故障,FreshBot則會記下該url並擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。

總的來說,FreshBot對服務器帶寬、資源的占用還是比較小的。最後,FreshBot對記錄信息按不同的優先級進行分類,向DeepBot提交,根據優先級不同,主要有以下幾種:

A:新建網頁;

B:舊網頁/新的TimeStamp,即存在更新的網頁;

C:使用301/302重定向的網頁;

D:複雜的動態url:如使用多個參數的動態url,Google可能需要附加的工作才能正確分析其內容。——隨着Google對動態網頁支持能力的提高,這一分類可能已經取消;

E:其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;

F:舊網頁/舊的TimeStamp,即未更新的網頁,注意,這裡的時間戳不是以Google搜索結果中顯示的日期為準,而是與Google索引數據庫中的日期比對;

G:錯誤的url,即訪問時返回404回應的頁面。

優先級按由A至G的順序排列,依次降低。需要強調的是,這裡所言之優先級是相對的,比如說同樣是新建網頁,根據指向其的鏈接質量、數量的不同,優先級也有着很大的區別,具有源自相關的權威網站鏈接的網頁具有較高的優先級。

此外,這裡所指的優先級僅針對同一網站內部的頁面,事實上,不同網站也有有着不同的優先級,換言之,對權威網站中的網頁而言,即使其最低優先級的404url,也可能比許多其他網站優先級最高的新建網頁更具優勢。

網頁的索引與收錄

接下來才進入真正的索引與收錄網頁過程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語言、網站位置等不同,對特定網站的索引工作將分配至不同的數據中心完成。

整個索引過程,由於龐大的數據量,可能需要幾周甚至更長時間才能完成。

正如上文所言,DeepBot會首先索引優先級較高的網站/網頁,優先級越高,出現在Google索引數據庫及至最終出現在Google搜索結果頁面中的速度便越快。

對新建網頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應的網頁便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用「site」搜索時常常看到標註為補充結果只顯示網頁url或只顯示網頁標題與url但沒有描述的頁面,此即是處於這一階段網頁的正常結果。

當Google真正讀取、分析、緩存了這個頁面後,其便會從補充結果中挑出而顯示正常的信息。

——當然,前提是該網頁具有足夠的鏈接,特別是來自權威網站的鏈接,並且,索引庫中沒有與該網頁內容相同或近似的記錄(DuplicateContent過濾)。

對動態url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態url出現在補充結果中的幾率遠大於使用靜態url的網頁,往往需要更多、更有價值的鏈接才能從補充結果中逸出。

而對於上文中之「F」類,即未更新的網頁,DeepBot會將其時間戳與Google索引數據庫中的日期比對,確認儘管可能搜索結果中相應頁面信息未來得及更新但只要索引了最新版本即可——考慮網頁多次更新、修改的情況——;至於「G」類即404url,則會查找索引庫中是否存在相應的記錄,如果有,將其刪除。

數據中心間的同步

前文我們提到過,DeepBot索引某個網頁時會由特定的數據中心完成,而不會出現多個數據中心同時讀取該網頁,分別獲得網頁最近版本的情況,這樣,在索引過程完成後,便需要一個數據同步過程,將網頁的最新版本在多個數據中心得到更新。

這就是之前著名的GoogleDance。不過,在BigDaddy更新後,數據中心間的同步不再象那樣集中在特定的時間段,而是以一種連續的、時效性更強的方式進行。

影響收錄

網站標題

網站標題、描述、關鍵詞的寫法在站長們的心目中一直是很慎重的一件事情,直接關係到網站的排名與流量,而且這三大標籤在網站上線之後不能輕易修改,這就需要站長們事先做好準備,如果說事先沒有考慮好,上線之後又去修改的話百度會認為你的網站不穩定,剛上線就修改關鍵標籤,有作弊嫌疑,然後就把你的網站丟進沙盒,慢慢考察,此時想要百度收錄網站至少要等到一個月之後,而且保證這段時間每天給網站添加高質量的文章。

外部鏈接

增加外部鏈接,能讓搜索引擎有效地抓取和收錄網頁。

網站內容

原創的網站內容更容易被收錄,採集、複製他人信息等做法一般很難收錄。

原創文章的最大好處,就是可以一舉多得,可以增加網站被搜索引擎收錄的概率,也可提升網站優化排名。

參考文獻