搜索引擎“叛逆”实录robots.txt 为何被无视？

Ur47000 • 2024年6月5日上午7:18 • SEO资讯

robots.txt 的作用

定义爬取范围

robots.txt 文件是网站与爬虫间的一种协议，它定义了搜索引擎爬虫可以访问的网站部分。当爬虫访问网站时，它会首先检查根目录下是否存在robots.txt 文件，并根据文件中的内容来确定爬取的范围。

阻止非公开页面被搜索引擎索引

robots.txt 还可以用来阻止非公开页面被搜索引擎索引。例如，可能有一个网页的临时版本或登录页面，这些页面需要存在但不希望被其他人访问，这时可以通过robots.txt 来阻止搜索引擎爬虫和机器人访问这些页面。

防止对资源进行索引

使用meta指令可以像Robots.txt 一样防止页面被索引，但对于多媒体资源（如pdf和图片）并不能有效地工作，这就需要借助robots.txt 文件。

搜索引擎为何可能无视robots.txt

爬虫与robots.txt 的约定性质

虽然robots.txt 是网站与爬虫之间的约定，但实际上并没有强制力。也就是说，在爬虫与反爬虫的对弈中，爬虫一定会胜利。只要人类能够正常访问的网页，爬虫在具备同等资源的情况下就一定可以抓取到。

大型搜索引擎可能会遵守robots.txt

大多数主流搜索引擎（包括谷歌、必应和雅虎）都承认并尊重Robots.txt 请求。但并不是所有的爬虫都会遵守robots.txt ，特别是那些小型的或者不受控制的爬虫，它们可能会无视robots.txt 的限制。

robots.txt 文件可能存在错误

如果robots.txt 文件本身存在问题，例如语法错误或者路径不正确，那么搜索引擎在尝试遵守这个文件时可能会出现问题，从而导致无法按照预期的方式进行爬取。

结论

尽管robots.txt 文件在一定程度上可以帮助网站控制搜索引擎的爬取范围，但它并非总是能够被搜索引擎完全遵守。这是因为爬虫与robots.txt 之间的约定并没有强制力，而且并不是所有的爬虫都会遵守这个约定。此外，如果robots.txt 文件本身存在问题，也可能导致搜索引擎无法按照文件中的指示进行爬取。因此，当出现搜索引擎“叛逆”实录时，可能是由于上述原因造成的。

原创文章，作者：Ur47000，如若转载，请注明出处：https://wyc.retuba.cn/13838.html