Robots.txt 屏蔽指南
1. 什么是robots.txt
robots.txt 的作用
- 用于指示搜索引擎爬虫哪些页面或目录可以爬取,哪些不可以。
- 通过robots.txt 文件,网站可以声明哪些部分不想被搜索引擎收录,或者指定搜索引擎只收录特定的部分。
robots.txt 的写法
- 通常格式为:
User-agent: Disallow:
,其中是搜索引擎爬虫的名称,
是要屏蔽的目录路径。 - 例如,如果你想屏蔽所有搜索引擎爬虫对”/secret/”目录的访问,可以写为:
User-agent: * Disallow: /secret/
。
2. 如何使用robots.txt 屏蔽内容
屏蔽指定文章
- 在robots.txt 中加入一行
Disallow: /article-title/
,可以有效地屏蔽对应的文章。
屏蔽指定目录
- 对于只想屏蔽某个或多个搜索引擎爬虫的情况,只需在robots.txt 中写明对应的
User-agent
名称和要屏蔽的目录路径。 - 例如,如果你想禁止百度和谷歌爬虫对”/tempweb/”目录的访问,可以写为:
User-agent: baiduspider Disallow: /tempweb/ User-agent: googlespider Disallow: /tempweb/
。
3. 注意事项
书写规范
- robots.txt 文件中的命令关键字必须大写,每个命令后必须跟着一个空格,然后才是路径或者路径的前缀。
- 使用通配符
*
和$
时,需要遵循一定的规则,如"$"
匹配行结束符。
生效时间
- 一旦发布了新的robots.txt 文件,搜索引擎会在几天到两个月内更新它们的索引,但这并不是立即发生的。
4. 结语
- 通过合理的设置robots.txt 文件,可以有效地控制搜索引擎爬虫的抓取范围,保护网站的隐私信息,提升网站的友好性和访问速度。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/5367.html