根据您的查询,我已经查阅了相关资料,并整理出一份关于robots.txt 编写精髓和拒绝错误的详细指南。以下是您所需要的内容:
一、robots.txt 的用途
robots.txt 文件用于屏蔽一个或多个搜索引擎禁止收录您网站上的内容。默认情况下,网站允许任何搜索引擎抓取和收录页面。然而,出于某些原因,您可以屏蔽某个或多个搜索引擎收录您网站上的页面。为了实现这一目标,robots协议应运而生,所有搜索引擎都遵循此协议。
二、robots.txt 文件格式
每个搜索引擎都有一个被称为蜘蛛(spider)或机器人(bot)的程序。在决定是否抓取您的网站页面时,蜘蛛会首先检查您网站的根目录中是否存在robots.txt 文件。如果没有robots.txt 文件,则说明允许全部抓取;如果存在robots.txt 文件,蜘蛛会识别里面是否有自己的名称在被拒绝之列,然后再判断您设置的哪些内容是不允许抓取的,最后进行网页的抓取和收录。
三、编写robots.txt 精髓
- User-agent:用于指定搜索引擎蜘蛛的名称。例如,baiduspider表示百度搜索引擎蜘蛛。
- Allow/Disallow:用于指定允许或禁止搜索引擎抓取的网址。例如,*Disallow:/admin/*表示禁止抓取管理员目录下的内容。
四、常见编写错误及解决方法
- 忘记写User-agent:请务必在Allow/Disallow之前写明User-agent,否则可能导致您的设置无法生效。
- 使用错误的User-agent名称:请确保您使用的User-agent名称正确无误,否则可能导致您的设置无法生效。
- 忘记在Disallow后面加斜杠:在Disallow后面忘记加斜杠可能导致您的设置无法生效。例如,Disallow:/admin应改为Disallow:/admin/。
- 在Allow/Disallow后面使用错误的路径:请确保您在Allow/Disallow后面使用的路径正确无误,否则可能导致您的设置无法生效。
五、示例代码
以下是一些常见的robots.txt 示例代码:
- 屏蔽所有搜索引擎:
User-agent: *
Disallow: /
- 允许所有搜索引擎:
User-agent: *
Allow: /
- 仅允许百度和谷歌收录:
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
- 禁止指定搜索引擎收录:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
- 屏蔽指定目录:
User-agent: *
Disallow: /admin/
Disallow: /temp/
请注意,在编写robots.txt 文件时,请务必仔细检查每一行代码,确保您的设置正确无误。如有需要,请及时更新您的robots.txt 文件,并在搜索引擎的站长工具中提交更新后的文件。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11612.html