時間:2014-10-17 13:50:45 瀏覽:2668次
網站上線之初我們會為網站制作robot文件來屏蔽那些不愿意被搜索索引抓取的文件,那你知不知道其實robot文件還可以巧妙的避免蜘蛛黑洞,更有利于網站的運營。
對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多,及內容雷同但具體參數不同的動態(tài)URL ,就像一個無限循環(huán)的“黑洞”將spider困住,Baiduspider浪費了大量資源抓取的卻是無效網頁。
比如很多網站都有篩選功能,通過篩選功能產生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分檢索價值不高,如“500-1000之間價格的租房”,首先網站(包括現(xiàn)實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額。那么該如何避免這種情況呢?
我們以北京某團購網站為例,看看該網站是如何利用robots巧妙避免這種蜘蛛黑洞的:
對于普通的篩選結果頁,該網站選擇使用靜態(tài)鏈接,如:http://bj.XXXXX.com/category/zizhucan/weigongcun
同樣是條件篩選結果頁,當用戶選擇不同排序條件后,會生成帶有不同參數的動態(tài)鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數也都是不同的。如:http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek,http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
對于該團購網來說,只讓搜索引擎抓取篩選結果頁就可以了,而各種帶參數的結果排序頁面則通過robots規(guī)則拒絕提供給搜索引擎。
robots.txt的文件用法中有這樣一條規(guī)則:Disallow: /*?* ,即禁止搜索引擎訪問網站中所有的動態(tài)頁面。該網站恰是通過這種方式,對Baiduspider優(yōu)先展示高質量頁面、屏蔽了低質量頁面,為Baiduspider提供了更友好的網站結構,避免了黑洞的形成。
將不利于用戶體驗的低質量頁面屏蔽,這樣就能夠更好的親近搜索引擎和網站受眾。除了北京某團購網網站,石家莊網絡公司的某網站采用了這種方式,利用robot文件將網站的模板頁進行屏蔽,只向用戶展示那些高質量的靜態(tài)頁面,更大程度上的貼近用戶需求。
(轉載請注明轉自:www.gafsjz.com,謝謝!珍惜別人的勞動成果,就是在尊重自己!)
24小時服務熱線:4000-135-120轉6
業(yè)務 QQ: 444961110
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術有限公司(河北供求網)誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網站建設、電子商務開發(fā),并獲得國家工業(yè)和信息化部資質認證的企業(yè)。公司自成立以來,以傳播互聯(lián)網文化為已任, 以高科技為起點,以網絡營銷研究與應用為核心,致力于為各企事業(yè)單位提供網絡域名注冊、虛擬主機租用、網站制作與維護、網站推廣和宣傳、網站改版與翻譯、移動互聯(lián)網營銷平臺開發(fā)與運營、企業(yè)郵局、網絡支付、系統(tǒng)集成、軟件開發(fā)、電子商務解決方案等優(yōu)質的信息技術服務,與中國科學院計算機網絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國數據、萬網、中資源、陽光互聯(lián)、點點客、北龍中網、電信通等達成戰(zhàn)略合作伙伴關系。