Robots 即爬虫协议 写法技巧
网站出现错误页面,或者某些页面不想让蜘蛛爬取时,合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站,首先查找网站根目录下是否存在robots.txt文件,若存在,则按照该文件的规范抓取内容;若不存在该文件,则按照默认的规则爬取网站中所有网页。因此,本文介绍一些robots语法和常用实例。
网站设置robots.txt的好处:禁止搜索引擎收录部分页面;引导蜘蛛爬网站地图;能够一定程度上保护网站安全;节省流量等。
Robots基本语法:
1、定义搜索引擎:User-agent。
User-agent: * #所有的搜索引擎
User-agent: Baiduspider #百度蜘蛛
User-agent: Googlebot #谷歌蜘蛛
2、Disallow 禁止爬取。
Disallow: /admin/ #禁止爬取admin文件夹
Disallow: /login.html #禁止爬取登录页面
3、Allow 允许。默认情况下,都是允许的。
例如:禁止admin文件夹下的所有文件,除了.html的网页。如果用Disallow一个一个的禁止,太浪费时间了。
此时用Allow就解决这个问题:
Allow: /admin/.html$
Disallow: /admin/
4、$ 结束符。
例:允许所有的以.html结尾的文件。不管前面有多长的URL,只要以.html结尾都允许
Allow: .html$
5、* 通配符符号0或多个任意字符。
例:屏蔽所有的动态URL
User-agent: *
Disallow: /*?*
6、Sitemap 声明网站地图。
Sitemap: http://www.xiaowangyun.com/sitemap.xml
7、#: 注释符。
8、版本号
Robot-version: Version 1.0
注:
1.robots.txt文件存放在网站根目录下。
2.文件名所有字母都必须小写(robots.txt)。
3.User-agent、Disallow、Allow、Sitemap必须是第一个字母大写,后面的字母小写,后面英文字符下的空格。
常用Robots.txt 文件举例
例1、禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。
User-agent: *
Disallow: /admin/
Disallow: /log/
Disallow: /bin/
例3、禁止某个搜索引擎抓取网站上的所有图片
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
责任编辑: webmaster >>> 百度上搜索 谷歌上搜索
点击复制本连接 (http://www.hugesky.com/showarticle.php?id=6914)>>> 相关资讯:
【声明】: 以上文章或资料除注明为电脑技巧原创或编辑整理外,均为网络收集整理或网友推荐。以上内容以共享、参考、研究为目的,不存在任何商业目的。 未注明作者或出处的文章,可能资料来源不规范。如有涉及版权请给予及时联系更正或予以删除。 |