搜索引擎蜘蛛如何排除標準robots協議?如果不想搜索引擎的蜘蛛程序抓取網站所有頁面或者是網站某類頁面,那么我們就需要了解搜索引擎蜘蛛排除的一些標準,這些標準稱為robots協議,格式一般是TXT文件。robots.txt文件一般都放置在網站的根目錄下,期就說明了網站中的哪些網頁是搜索引擎蜘蛛可以索引的,那些頁面是搜索引擎蜘蛛不可以索引的。
一、Robots協議的代碼形式
Robots協議是使用了特定的語法才能使爬蟲理解文件中的含義。Robots.txt文本文件基本的形式如下:
User-agent:*
Disallow:/
所有的robot文件中一定要有以上兩句語句。
第一句User-agent的意思是告訴蜘蛛所對應的是哪里個搜索引擎,“*”是代表所有的蜘蛛;
第二句Disallow是告訴搜索引擎蜘蛛那些地方不可以索引,可以針對某一個搜索引擎,也可能針對所有的搜索引擎。“/”是代表所有的目錄;
提示,在User-agent和Disallow后面都需要加冒號(:)它起的作用是要求搜索引擎時和蜘蛛注意的信息;
二、實例講解
1、要求所有搜索引擎不能訪問/kehu文件夾下的網頁;
User-agent:*
Disallow:/ kehu/
2、要求百度搜索引擎不能訪問/kehu文件平下的所有網頁;
User-agent: Baiduspider
Disallow:/ kehu/
3、要求百度搜索引擎和谷歌搜索引擎都不能訪問/kehu文件平下的所有網頁
User-agent: Baiduspider
Disallow:/ kehu/
User-agent: googlebot
Disallow:/ kehu/
4、屏蔽所有動態頁面被搜索引擎收錄
User-agent: *
Disallow:/*?*
5、禁止所有搜索引擎抓取指定的某個頁面的
User-agent: *
Disallow:/指定的某個頁面的URL地址
提示,搜索引擎蜘蛛訪問robots.txt文件時是叢上往下訪問,當搜索引擎蜘蛛訪問到合適規定的時就會停止讀取,并根據規則訪問網站。
三、各搜索引擎蜘蛛對應的英文名稱
google蜘蛛:googlebot
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
搜搜蜘蛛:Sosospider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
|