电脑技巧.图片新闻 | 用户注册 | 用户中心 | 发表文章 | 留言簿 | 二维码
  |繁体中文|  RSS订阅 |极速版  |扫描二维码  
电脑技巧,计算机,电脑知识,组装维修,经验,资料精华宝库,HUGESKY CMS官网,鸿天全站,HUGESKY-用noindex非robots.txt屏蔽搜素引擎技巧
本站申明:
本站尽量纯净无广告,提供交流学习类共享资料。[广告投放说明] [联系]
  • 首 页
  • 电脑知识
  • 应用技巧
  • 组装技巧
  • 维修技巧
  • 网络技巧
  • 组网通信
  • 办公技巧
  • 技巧视频
  • 编程技巧
  • 防毒技巧
  • 博客圈
会员注册关闭
帐号: 密码: 验证码: 点击显示验证码 记住
电脑技巧 -> 电脑知识 -> 专业知识

用noindex非robots.txt屏蔽搜素引擎技巧

作者: 未知 来源: 网络收集 整理日期: 2019-09-19
推荐指数: 点击:1062   文字大小: 加入收藏夹


要阻止某个网页出现在搜索结果中,您可以将 noindex 元标记加入该网页的 HTML 代码中,或在 HTTP 请求中返回“noindex”标头。当爬虫下次抓取该网页并看到相应的标记或标头时,就会完全阻止该网页出现在搜索结果中(不论是否有其他网站链接到该网页)。

重要提示!

要想让 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相应网页。如果该网页被 robots.txt 文件屏蔽了,抓取工具将永远无法看到 noindex 指令,因此该网页可能仍会显示在搜索结果中(例如,如果有其他网页链接到该网页的话)。
如果你不具备对服务器的 root 访问权限,则可借助非常实用的 noindex 工具控制搜索引擎对你网站上各个网页的访问权限。

实施 noindex

你可采用以下两种方法来实施 noindex:将 noindex 用作元标记,或用作 HTTP 响应标头。这两种方法的效果是等同的,但你可根据自己对服务器的控制程度和所用的具体发布流程,从中任选一种对你而言较为便捷的方式。

<meta> 标记

要想阻止大部分搜索引擎网页抓取工具将你网站中的网页编入索引,请将以下元标记放入相应网页的 <head> 部分中:

<meta name="robots" content="noindex">

要阻止 baidu 网页抓取工具将网页编入索引,请放入以下元标记:

<meta name="Baiduspider" content="noindex">

要阻止 Google 网页抓取工具将网页编入索引,请放入以下元标记:

<meta name="googlebot" content="noindex">

屏蔽所有蜘蛛爬虫抓取该页面的写法是:

<meta name="robots" content="noindex" >

请注意,某些搜索引擎网页抓取工具对 noindex 指令可能会有不同的解读,因此,你的网页可能仍会出现在其他搜索引擎的结果中。

帮助搜索引擎发现你的noindex元标记

只有在抓取你的网页后才能看到元标记。如果你的网页仍出现在搜索结果中,可能是因为在你添加标记之后搜索引擎尚未抓取过你的网站。你可以向搜索引擎主动提交你的网页,让爬虫重新抓取你的网页。此外,也可能是因为你的 robots.txt 文件禁止了爬虫访问该网址,因此无法看到此标记。要允许搜索引擎访问你的网页,你必须修改 robots.txt 文件。

HTTP 响应标头

除了使用元标记,你还可在响应中返回一个值为 noindex 或 none 的 X-Robots-Tag 标头。下面的 HTTP 响应示例便含有一个可指示抓取工具不要将某一网页编入索引的 X-Robots-Tag:

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

如何利用 Apache 实际实施 X-Robots-Tag

你可以使用基于 Apache 的网络服务器上默认提供的 .htaccess 和 httpd.conf 文件,将 X-Robots-Tag 添加到网站的 HTTP 响应中。在 HTTP 响应中使用 X-Robots-Tag 的好处是,你可以指定要应用于整个网站的抓取指令。系统对正则表达式的支持提供了很高的灵活性。

例如,要将 noindex, nofollow X-Robots-Tag 添加到整个网站上所有 .PDF 文件的 HTTP 响应中,请将以下代码段添加到网站的 root .htaccess 文件或 httpd.conf 文件中:

<Files ~ ".pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

你可以对无法使用漫游器元标记的非 HTML 文件(如图片文件)使用 X-Robots-Tag。下面的示例说明了如何针对整个网站上的所有图片文件(.png、.jpeg、.jpg、.gif)添加 noindex X-Robots-Tag 指令:

<Files ~ ".(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

如何合并使用抓取指令与索引编制/内容显示指令

只有当网页被抓取时,漫游器元标记和 X-Robots-Tag HTTP 标头才会被抓取工具发现。如果你通过 robots.txt 文件禁止抓取某一网页,那么抓取工具就不会找到任何关于索引编制/内容显示指令的信息,因此会忽略这些信息。如果索引编制/内容显示指令必须被遵循,那么你就不能禁止抓取工具抓取包含这些指令的网址。

获得更多 -> 电脑知识 -> 专业知识
技术支持

责任编辑: webmaster >>> 百度上搜索  谷歌上搜索

hugesky
点击复制本连接 (http://www.hugesky.com/showarticle.php?id=6894)

  转换为打印版本   在本站发表文章    关闭本页窗口
 htaccess规则文件中无法访问txt文件的解决技巧
 屏蔽百度蜘蛛或某一爬虫的四种方法

>>> 相关资讯:

  • . 固态继电器使用
  • . 什么是服务器服务器分类
  • . 生物芯片(基因芯片)技术
  • . 无线上网-设备类型
  • . HotspotShieldLaunch
  • . 电子墨水屏又被称为电子纸显示技术
  • . 内外设防让局域网安全高枕无忧
  • . eSIM就是电子化的SIM卡,你的手机不需
  • . ping命令详解
  • . 手机摄像头的组成结构及原理
【声明】:
以上文章或资料除注明为电脑技巧原创或编辑整理外,均为网络收集整理或网友推荐。以上内容以共享、参考、研究为目的,不存在任何商业目的。
未注明作者或出处的文章,可能资料来源不规范。如有涉及版权请给予及时联系更正或予以删除。
评论:(开放)

  网友评论: 评  
以下网友评论只代表网友个人观点,不代表本站观点
  发表评论:(匿名用户不能发表评论! 注册 登陆)
昵称: 验证码:
评分:
5 4 3 2 1
内容:
  请文明参与讨论,禁止漫骂攻击。
 
·用户发表意见仅代表其个人意见,并且承担一切因发表内容引起的纠纷和责任.
·本站管理人员有权在不通知用户的情况下删除不符合规定的评论信息或留做证据.
·请客观的评价您所看到的资讯,提倡就事论事,杜绝漫骂和人身攻击等不文明行为.
内容搜索
    • 站内搜索
热门资讯
  • [图文]来,来,来,火绒剑干掉Aliba...
  • 公共DNS服务器IP地址大全
  • 电脑快捷键全都在这了!电脑技巧...
  • 图说最常用的10个电脑技巧
  • 别说你不会?这9个电脑技巧你必须...
  • Win7解决C盘占用空间大的方法
  • 网银密码设置小技巧
  • win7安装AHCI驱动
  • [推荐]五步搞定电脑网络安全 五步...
  • 平板电脑选购六大要点
广告位置
开启模板:NEWSKY -关于版权 - 隐私保护 - 联系我们 - 网站地图 - 会员列表 - 加入收藏 - 返回顶部

我问佛:如何才能如你般睿智? 佛曰:佛是过来人,人是未来佛。
部分资源收集于互联网并遵循 署名-非商业性使用-相同方式共享3.0共享,尽量署名原创。
据《信息网络传播权保护条例》 如侵犯您的权利,请联系webmaster(at)hugesky.com删除。
Power By HugeSky.Com

Copyright© www.hugesky.com
Powered by HUGESKY CMS 7.1.1.1080918 professional licensed