什么是机器人。txt文件以及如何正确使用它?

什么是 Robots.txt 文件以及如何正确使用它?

robots.txt 文件是一种媒介,可让您与爬行您网站的机器人进行通信。虽然告诉 Google 机器人应该在页面上分析什么是有益的,但正确地做到这一点需要学习网络爬虫可以理解的语言。在本文中了解更多信息! 

每个建立网站的人都希望在 Internet 上可见。这就是为什么越来越多的人决定执行符合 Google 指南的 SEO 活动,以确保他们的网站在自然搜索结果中排名靠前。

您可能首先想到的问题之一是Google 或任何其他搜索引擎如何知道给定页面上发布的内容

好吧,所谓的网络爬虫检查网络世界永无止境的资源并分析所有遇到的网站上的内容。值得确保的是,一旦机器人进入您的网站,它们就会被告知应该抓取哪些页面,因为某些子页面不必甚至不应该显示在搜索结果中——这就是robots.txt的来源派上用场。

Robots.txt——它是什么?

robots.txt 文件是用于与网络爬虫通信的元素之一。

进入网站后,机器人会立即搜索此特定文件。它由符合Robots Exclusion Protocol标准的命令组合组成 – 一种机器人可以理解的“语言”。

多亏了它,网站所有者能够导航机器人并限制他们对不需要在搜索结果中显示的网站上的资源(例如图形、样式、脚本或特定子页面)的访问。

不应抓取的元素

自从网站不再是除了文本之外什么都不包含的简单文件以来,已经有很长一段时间了。大多数在线商店包含许多子页面,这些子页面在搜索结果方面没有价值,甚至会导致创建内部重复内容。

要了解更多信息,请查看我们关于重复内容的文章

机器人不应访问购物车、内部搜索引擎、订购程序或用户面板等元素。

为什么?

因为这些元素的设计不仅会造成不必要的混乱,还会对网站在 SERP 中的可见性产生负面影响您还应该考虑阻止 CMS 制作的子页面副本,因为它们会增加您的内部重复内容。

当心!

创建允许您浏览网络爬虫的规则需要对网站结构有全面的了解。

使用不正确的命令会阻止 Google 机器人访问整个网站内容或其重要部分。这反过来又会导致适得其反的效果——您的网站可能会从搜索结果中完全消失

技术搜索引擎优化和移动商务

Robots.txt 文件只是建议

网络爬虫可能会决定遵循您的建议,但是,出于多种原因,您不能强迫它们遵守上述通信协议中放置的任何命令。

首先,Googlebot 并不是唯一的机器人扫描网站。尽管世界领先搜索引擎的创建者确保他们的爬虫尊重网站所有者的建议,但其他机器人不一定有帮助。此外,当另一个索引网站链接到给定的 URL 时,它也可以被抓取。

根据您的需要,有几种方法可以保护您自己免受这种情况的影响。例如,您可以应用 noindex 元标记或“X-Robots-Tag”HTTP 标头。

也可以使用密码保护个人数据,因为网络爬虫无法破解它。对于robots.txt 文件,不必从搜索引擎索引中删除数据,只需将其隐藏即可。

Robots.txt 生成器——如何创建文件?

Internet 上有很多 robots.txt 生成器,而且 CMS 经常配备特殊机制,使用户可以更轻松地创建此类文件。您必须手动准备说明的可能性很小。但是,值得学习协议的基本结构,即可以提供给网络爬虫的规则和命令。

结构

首先创建 robots.txt 文件。根据 Google 的建议,您应该使用 ASCII 或 UTF-8 字符编码系统。让一切尽可能简单。使用几个以冒号结尾的关键字来发出命令并创建访问规则。

用户代理: ——指定命令的接收者。这里需要输入网络爬虫的名称。可以在线找到所有名称的详尽列表 (http://www.robotstxt.org/db.html),但是,在大多数情况下,您可能希望主要与 Googlebot 进行通信。不过,如果您想向所有机器人发出命令,只需使用星号“*”即可。

因此,Google 机器人命令的示例性第一行如下所示:

用户代理:Googlebot

Disallow: – 在这里你提供不应该被机器人扫描的 URL。最常见的方法包括通过插入以“/”符号结尾的访问路径来隐藏整个目录的内容,例如:

不允许:/阻止/

或文件:

不允许:/folder/blockedfile.html

允许: – 如果您的任何隐藏目录包含您希望网络爬虫可用的内容,请在“允许”后输入其文件路径:

允许:/blocked/unblockeddirectory/

允许:/blocked/other/unblockedfile.html

站点地图:  – 它允许您定义站点地图的路径。但是,此元素不是robots.txt 文件正常工作所必需的。例如:

站点地图:http://www.mywonderfuladdress.com/sitemap.xml

Robots.txt 文件的指令

默认设置

首先,请记住网络爬虫假定他们被允许扫描整个网站因此,如果您的 robots.txt 文件应该如下所示:

用户代理: *

允许: /

那么你不需要将它包含在站点目录中。机器人会根据自己的喜好抓取网站。但是,您始终可以插入该文件以防止网站分析过程中可能出现的错误。

字母大小

尽管这可能令人惊讶,但机器人能够识别小写字母和大写字母因此,他们会将 file.php 和 File.php 视为两个不同的地址。

星号的力量

前面提到的星号 – * 是另一个非常有用的功能。在 Robots Exclusion Protocol 中,它通知允许在给定空间中放置任何长度不受限制(也为零)的字符序列。例如:

不允许:/*/file.html

将适用于以下两个文件:

/directory1/file.html

和文件夹中的那个:

/folder1/folder2/folder36/file.html

星号也可以用于其他目的。如果将它放在特定文件扩展名之前,则该规则适用于该类型的所有文件。例如:

不允许:/*.php

将适用于您网站上的所有 .php 文件(“/”路径除外,即使它指向具有 .php 扩展名的文件)和规则:

不允许:/folder1/test*

将应用于 folder1 中以单词“test”开头的所有文件和文件夹。

字符序列结束

不要忘记指示地址结尾的“$”运算符。这样,使用规则:

用户代理: *

不允许:/folder1/

允许:/folder1/*.php$

建议机器人不要索引 folder1 中的内容,但同时允许它们扫描文件夹内的 .php 文件。包含上传参数的路径,例如:

http://mywebsite.com/catalogue1/page.php?page=1

不会被机器人抓取。但是,使用规范 URL 可以轻松解决此类问题。

注释

如果创建的文件或您的网站很复杂,建议添加注释来解释您的决定这是小菜一碟——只需在行首插入一个“#”,网络爬虫就会在扫描站点时跳过这部分内容。

再举几个例子

您已经知道解锁对所有文件的访问权限的规则,但是,让网络爬虫离开您的站点的规则也值得学习。

用户代理: *

不允许: /

如果您的网站没有显示在搜索结果中,请检查robots.txt 文件是否不包含上述命令。

在下面的屏幕截图中,您可以看到在线商店网站上的 robots.txt 文件示例:

它包含一组上述所有结构,但站点地图不是强制性的。

这些规则适用于所有机器人。例如,“environment”目录被屏蔽,但允许网络爬虫进入“/environment/cache/images/”路径。此外,搜索引擎无法访问购物车、登录页面、内容副本(索引、完整)或内部搜索引擎和评论部分。

在哪里放置 Robots.txt 文件?

如果您已经创建了符合所有标准的 robots.txt 文件,您只需将其上传到服务器即可。它必须放在您的主主机目录中。任何其他位置都会阻止机器人找到它。因此,示例性 URL 如下所示:

http://mywebsite.com/robots.txt

如果您的网站有几个版本的 URL(例如带有 http、https、www 或没有 www 的版本),建议将适当的重定向应用到一个主域多亏了它,该网站将被正确抓取。

谷歌信息

搜索引擎机器人可以轻松识别正确定位的文件。但是,您也可以促进他们的任务。

Google 允许 Search Console 用户检查他们当前的文件,检查任何计划的修改是否正常工作,并上传新的robots.txt 文件。

Google 官方文档中的链接重定向到旧版本的 GSC,因此我们也将使用它。

什么是 Robots.txt 文件 - 搜索控制台 Robots.txt 测试器google.com/webmasters/tools/robots-testing-tool

使用此工具,您可以有效地检查您网站上的特定元素是否对机器人可见。例如,由于以红色标记的强加限制,他们将无法访问 /wp/wp-admin/test.php 地址。

您可以使用“提交”选项通知 Google 您的 robots.txt 文件已更新,并要求它重新抓取您的网站。

Robots.txt 文件——要点

robots.txt 文件是一组针对爬行您网站的机器人的建议大多数著名的搜索引擎和网络爬虫都遵循这些建议,尽管他们没有义务这样做。

根据 Google 指南准备文件肯定会帮助您确保正确抓取您网站上的所有子页面。但是,如果您希望完全阻止机器人访问服务器上的某些数据,则值得应用其他更可靠的方法,例如肯定更难破解的密码。

如果技术 SEO 不是您的菜,请随时与我们联系!我们会立即为您完成,并通过其他 SEO 活动提高您网站的知名度。

推荐阅读
Scroll to Top

联系我们

=