Robots.txt 解释

更新时间:2022-07-26 / 文章作者:Jerry Low

robots.txt 文件是一个包含搜索引擎爬虫指令的简单文本文档。 它告诉他们要抓取哪些页面以及要避免哪些页面。 这就像机器人的标志,说:“来这里了解使用该网站所需的规则。”

这些文件的目的是帮助搜索引擎确定如何最好地抓取您的网站。 这有助于减轻机器人和服务器的负担。 毕竟,不必要的数据请求不会以有意义的方式使任何人受益。

例如,没有理由 Googlebot的 (或任何其他机器人)提取除您博客上的最新帖子或已获得更新的帖子之外的任何内容。

Robots.txt 文件的工作原理

了解其工作原理的最简单方法是将您的网站视为您家中的客人。 你有所有这些你想在墙上炫耀的东西,但你不希望客人徘徊和触摸东西。 所以,你告诉他们:“嘿! 请远离这个房间。”

这就是 robots.txt 文件的作用——它告诉搜索引擎他们应该去哪里(以及不应该去哪里)。 您可以通过遵循一些预定义规则的简单指令来实现这一奇迹。

每个网站只能有一个 robots.txt 文件,并且必须遵循该确切名称 - 不多也不少。

我需要 Robots.txt 文件吗?

简短的回答是肯定的。 您的网站上应该有一个 robots.txt 文件。

更长的答案是你需要知道如何 搜索引擎机器人 将抓取您的网站并将其编入索引,然后相应地编写您的 robots.txt 文件。

除了防止垃圾邮件发送者和黑客掌握敏感信息之外,拥有一个结构合理且维护得当的 robots.txt 文件还有助于提高您的网站在搜索引擎结果中的排名。

相关读物

如何构建您的 Robots.txt 文件

robots.txt 文件最初是一个简单的空白文本文档。 这意味着您可以使用像 MS Notepad 这样的纯文本编辑器这样简单的工具来创建一个。 您也可以使用您的文本编辑器 虚拟主机 控制面板,但在您的计算机上创建文件更安全。

创建文档后,就可以开始填写说明了。 你需要做两件事才能做到这一点。 首先,您必须知道希望 robots.txt 文件告诉机器人什么。 接下来,您需要了解如何使用机器人可以理解的指令。

第 1 部分:Robots.txt 文件可以做什么

  • 允许或阻止特定机器​​人
  • 控制机器人可以抓取的文件
  • 控制机器人可以爬取的目录
  • 控制对图像的访问
  • 定义您的站点地图

更多。

第 2 部分:了解 Robots.txt 语法的工作原理

许多人在查看 robots.txt 样本时会感到困惑,因为内容看起来像是技术术语。 这对普通人来说是相当准确的。 理解 robots.txt 的关键是像计算机一样思考。

计算机需要指令才能工作,并根据指令处理事物。 机器人也是如此。 他们一次读一行指令。 这些行中的每一行都必须遵循特定的格式。

以下是 robots.txt 文件的一些常用命令;

代码操作
用户代理:Googlebot-newsAllow:/
用户代理:*不允许:/
只允许 Google 的新闻机器人抓取您的网站
用户代理:Googlebot-ImageDisallow:/images/dogs.jpg停止在 Google 图片搜索结果中显示 Smiley.jpg 图片。
用户代理:GooglebotDisallow:/*.gif$阻止 Google 的机器人抓取任何带有 .gif 扩展名的图像文件。

您可以在以下位置获取更全面的 robots.txt 文件说明列表 Google的开发人员文档.

Facebook 的 Robots.txt 文件。
例如,这里是 Facebook 的 Robots.txt 文件中。
Google 的 Robots.txt 文件。
这是 Google 的 Robots.txt 文件中。

Robots.txt 的最佳实践

请按照 robots.txt 的说明进行操作,否则您的网站可能会出现问题。 (资源: 谷歌)

虽然在某些方面,robots.txt 允许您自定义机器人行为,但它的工作要求可能非常严格。 例如,您必须将 robots.txt 文件放在您网站的根目录中。 这通常意味着 public_html 或 www。

虽然有些规则是可以协商的,但最好了解一些标准指南;

观看您的订单

robots.txt 文件中的指令具有顺序优先级。 这意味着冲突的指令将默认为文件中的第一个实例。 这就像比较州与联邦法院的裁决。

详细

创建说明时,请尽可能具体地使用您的参数。 机器人不协商,所以准确地告诉他们需要发生什么。

子域是可能的

但是,每个子域中 robots.txt 文件的规则将仅适用于文件所在的子域。

检查文件

构建和转储 robots.txt 文件可能会导致灾难。 在放任自流之前,确保您添加的规则或说明有效。

不要Noindex任何东西

谷歌表示不要在 robots.txt 中这样做; 因此它必须是真的。

最后的思考

严格来说,您不需要 robots.txt 文件。 对于没有大量内容要抓取的小型或静态网站尤其如此。 但是,较大的网站会发现 robots.txt 在减少网络爬虫丢失的资源方面不可或缺。 它使您可以更好地控制机器人如何查看您的网站。

了解更多

关于Jerry Low

WebHostingSecretRevealed.net (WHSR) 的创始人 - 他的托管评论文受到 100,000 用户的信任和使用。在网络托管、联盟营销和 SEO 方面拥有超过 15 年的经验。为 ProBlogger.net、Business.com、SocialMediaToday.com 等做出不少贡献。