电脑技巧.图片新闻 | 用户注册 | 用户中心 | 发表文章 | 留言簿 | 二维码
  |繁体中文|  RSS订阅 |极速版  |扫描二维码  
电脑技巧,计算机,电脑知识,组装维修,经验,资料精华宝库,HUGESKY CMS官网,鸿天全站,HUGESKY-robots.txt文件的作用、写法技巧
本站申明:
本站尽量纯净无广告,提供交流学习类共享资料。[广告投放说明] [联系]
  • 首 页
  • 电脑知识
  • 应用技巧
  • 组装技巧
  • 维修技巧
  • 网络技巧
  • 组网通信
  • 办公技巧
  • 技巧视频
  • 编程技巧
  • 防毒技巧
  • 博客圈
会员注册关闭
帐号: 密码: 验证码: 点击显示验证码 记住
电脑技巧 -> 电脑知识 -> 专业知识

robots.txt文件的作用、写法技巧

作者: 未知 来源: 网络收集 整理日期: 2019-09-19
推荐指数: 点击:1539   文字大小: 加入收藏夹


搜索引擎使用 spider 程序自动访问互联网上的网页并获取网页信息。spider 在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt 的纯文本文件,这个文件用于指定 spider 在您网站上的抓取范围。您可以在您的网站中创建一个 robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。所以这将是我们网站 SEO 诊断检查的第一要素,因为一旦不小心定义错了 robots.txt 文件,网站将可能消失在搜索引擎结果中,以下子凡将会列举需要注意事项,以及 robots.txt 文件的详细写法和 robots 书写例子,同时也收集拓展了一些各大搜索引擎蜘蛛名称。

robots.txt文件的作用、写法技巧

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

一、网站 robots.txt 文件注意事项

1、robots.txt 文件必不可少

不论你网站有没有需要禁止搜索引擎抓取的目录或者页面,子凡都建议大家添加一个 robots.txt 文件,因为当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个 404 错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个 robots.txt 文件还是很重要的。

2、robots.txt 文件命名

可能很多人习惯把因为首字母大写,包括子凡有时候都有这个习惯,所以在 robots.txt 文件命名必须全部小写。

3、robots.txt 文件位置

robots.txt 必须放置与站点的根目录下,如果放置在二级目录等位置搜索引擎抓取时均会被忽略。

4、robots 文件书写注意

在书写这些Robots规则语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,并且冒号需要是英文半角输入,否则也是无效。

5、robots 规则首字母大写

robots 文件规则的写法中,每一行规则的关键字的首字母都是大写的,如:User-agent、Disallow、Allow、Sitemap

6、robots 规则符号的区别

在屏蔽目录的时候,如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。

7、robots 中添加网站地图链接

为了让搜索引擎更快的收录我们的内页,我们一般都会做一个 xml 的百度地图或者谷歌地图,Sitemap: 网站地图,这个命令就可以快速的引导搜索引擎蜘蛛来到你的地图页面对网站内页进行抓取。当网站的死链接过多处理非常麻烦的时候,我们可以利用 robots 来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。

二、网站 robots.txt 语句详细写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻 admin 目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的 URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg 格式的图片
Disallow:/a/b.html 禁止爬取 a 文件夹下面的 b.html 文件。
Allow: /cgi-bin/ 这里定义是允许爬寻 cgi-bin 目录下面的目录
Allow: /tmp 这里定义是允许爬寻 tmp 的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的 URL。
Allow: .gif$ 允许抓取网页和 gif 格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

三、网站 robots.txt 写法举例

1、禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /

2、禁止百度索引你的网站
User-agent: Baiduspider
Disallow: /

3、禁止 Google 索引你的网站
User-agent: Googlebot
Disallow: /

4、禁止除 Google 外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

5、禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

6、禁止蜘蛛访问某个目录
User-agent: *
Disallow: /css/

7、允许访问某个目录中的某些特定网址
User-agent: *
Allow: /admin/html
Allow: /images/index
Disallow: /admin/
Disallow: /images/

四、常见的各大搜索引擎蜘蛛名称

1、百度蜘蛛:Baiduspider,Baiduspider-mobile(抓取 wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。注:以上百度蜘蛛目前常见的是 Baiduspider 和 Baiduspider-image 两种。

2、谷歌蜘蛛:Googlebot,这个争议较少,但也有说是 GoogleBot 的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了 Googlebot-Mobile,看名字是抓取 wap 内容的。

3、360 蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。

4、搜狗蜘蛛:Sogou News Spider,搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,(参考一些网站的 robots 文件,搜狗蜘蛛名称可以用 Sogou 概括,无法验证不知道有没有效)看看最权威的百度的 robots.txt ,http://www.baidu.com/robots.txt 就为 Sogou 搜狗蜘蛛费了不少字节,占了一大块领地。

5、MSN 蜘蛛:MSNBot

6、必应蜘蛛:bingbot ,线上(compatible; bingbot/2.0;)

7、一搜蜘蛛:YisouSpider

8、Alexa 蜘蛛:ia_archiver

9、宜 sou 蜘蛛:EasouSpider

10、即刻蜘蛛:JikeSpider

11、一淘网蜘蛛:EtaoSpider

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。

通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。

网站没有Robots.txt文件的弊端

如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;
搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,最大限度的节约蜘蛛资源。
Robots.txt文件的存放位置

网站根目录下,通过“域名/robots.txt”能正常访问即可,如http://域名/robots.txt

获得更多 -> 电脑知识 -> 专业知识
技术支持

责任编辑: webmaster >>> 百度上搜索  谷歌上搜索

hugesky
点击复制本连接 (http://www.hugesky.com/showarticle.php?id=6891)

  转换为打印版本   在本站发表文章    关闭本页窗口
 开关电源的主要电路
 中间人攻击和HTTPS

>>> 相关资讯:

  • . 3DSMAX超级技巧
  • . 安卓9(Android9)亮点
  • . 完成无线局域网络搭建构架的六要素
  • . Picasa会立即查找到并整理您计算机上
  • . 都是高分屏Mac却比WinPC更清晰?
  • . 无线上网卡的设置
  • . LCDTFTLED是什么?
  • . 你知道吗?从Byte、KB、MB、GB、TB到
  • . 电脑电源选购标准
  • . UEFI+GPT与BIOS+MBR启动
【声明】:
以上文章或资料除注明为电脑技巧原创或编辑整理外,均为网络收集整理或网友推荐。以上内容以共享、参考、研究为目的,不存在任何商业目的。
未注明作者或出处的文章,可能资料来源不规范。如有涉及版权请给予及时联系更正或予以删除。
评论:(开放)

  网友评论: 评  
以下网友评论只代表网友个人观点,不代表本站观点
  发表评论:(匿名用户不能发表评论! 注册 登陆)
昵称: 验证码:
评分:
5 4 3 2 1
内容:
  请文明参与讨论,禁止漫骂攻击。
 
·用户发表意见仅代表其个人意见,并且承担一切因发表内容引起的纠纷和责任.
·本站管理人员有权在不通知用户的情况下删除不符合规定的评论信息或留做证据.
·请客观的评价您所看到的资讯,提倡就事论事,杜绝漫骂和人身攻击等不文明行为.
内容搜索
    • 站内搜索
热门资讯
  • [图文]来,来,来,火绒剑干掉Aliba...
  • 公共DNS服务器IP地址大全
  • 电脑快捷键全都在这了!电脑技巧...
  • 图说最常用的10个电脑技巧
  • 别说你不会?这9个电脑技巧你必须...
  • Win7解决C盘占用空间大的方法
  • 网银密码设置小技巧
  • win7安装AHCI驱动
  • [推荐]五步搞定电脑网络安全 五步...
  • 平板电脑选购六大要点
广告位置
开启模板:NEWSKY -关于版权 - 隐私保护 - 联系我们 - 网站地图 - 会员列表 - 加入收藏 - 返回顶部

我问佛:如何才能如你般睿智? 佛曰:佛是过来人,人是未来佛。
部分资源收集于互联网并遵循 署名-非商业性使用-相同方式共享3.0共享,尽量署名原创。
据《信息网络传播权保护条例》 如侵犯您的权利,请联系webmaster(at)hugesky.com删除。
Power By HugeSky.Com

Copyright© www.hugesky.com
Powered by HUGESKY CMS 7.1.1.1080918 professional licensed