蜘蛛抓取頁面,卻遲遲不見收錄,這背后隱藏著怎樣的搜索引擎邏輯呢?讓我們一起揭開這層神秘的面紗。
. 爬取與收錄的微妙關系
爬取和收錄,聽起來像是一對密不可分的伙伴,實則不然。它們是搜索引擎工作的兩個獨立環(huán)節(jié)。蜘蛛辛勤地爬取頁面后,會將它們暫時存放在數(shù)據(jù)庫中。只有當頁面通過搜索引擎的審查,才會被正式收錄并展示給用戶。
. 蜘蛛抓取的兩個階段
第一階段:全面抓取
蜘蛛對網站的URL進行“大小通吃”,無論是大站還是小站,它都會一一抓取。站長可以通過網站日志記錄這一過程,從而分析網站的優(yōu)化情況。
第二階段:網頁評級
抓取后,蜘蛛會對頁面進行評級。PageRank算法是衡量網頁重要性的一個著名方法。站長可以借鑒這一思路,對URL進行排序。但值得注意的是,PageRank是一個全局性算法,需要所有網頁下載完成后,其計算結果才可靠。
. 爬取成功卻不見收錄的原因
蜘蛛將頁面放入臨時數(shù)據(jù)庫后,搜索引擎會對內容進行審查。只有優(yōu)質內容才能被放出并建立索引。不同蜘蛛的抓取頁面評級也不盡相同,有的權重高,有的權重低。
如果網站提交后,首頁快照已經放出,但內容仍未見收錄,站長只需耐心等待。在此期間,避免進行大的改動,如修改title標題或URL,以免延長收錄時間。
如果內容和首頁都未放出,建議重新向百度提交,并提交sitemap地圖,以通知蜘蛛抓取網站內容。