robots協議也稱爬蟲協議、爬蟲規則等,是指網站可建立一個robots.txt文件來告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,而搜索引擎則通過讀取robots.txt文件來識別這個頁面是否允許被抓取。通常被放置在根目錄下
目前位置robots協議文件寫法有如下:
user-agent:* 這里的*代表對所有的搜索引擎種類類型,*其實就是通配符的意思。
allow:/ 是代表所有的robots允許訪問。
Disallow: /是代表所有的robots不允許訪問。
文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
robots文件的作用:
1、可以屏蔽網站內一些打不開的鏈接,也就是死鏈接
2、可以屏蔽搜索引擎蜘蛛訪問網站內重復的內容和重復的頁面
3、阻止搜索引擎訪問網站的隱私性的內容。
4、阻止搜索引擎訪問網站的后臺內容。
5、告訴搜索引擎那些內容是需要被訪問的。指定爬網延遲,以便在爬網程序一次加載多個內容時防止服務器過載
6、防止搜索引擎索引您網站上的某些文件(圖像,PDF等)
|