robots.txt 权威指南
robots.txt 的基本概念
robots.txt 的作用
- 用于禁止网络爬虫访问网站指定目录
- 用于告诉爬虫抓取网站上的指定路径文件或内容
- 用于网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接
- 用于屏蔽死链接、404错误页面;屏蔽无内容、无价值页面,像后台管理页面等
- 用于屏蔽任何不想被收录的页面
robots.txt 的格式
- 采用面向行的语法:空行、注释行(以#打头)、规则行
- 每条记录的第二个域是Disallow:指令行,声明了该网站中不希望被访问的文件和(或)目录
- User-Agent、Disallow、Allow行是常见的规则行
robots.txt 的编写规则
robots.txt 的编写位置
- 必须位于域名的根目录中并被命名为robots.txt
- 位于子目录中的robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件
robots.txt 的编写内容
- User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录
robots.txt 的其他注意事项
- 为了避免歧义,最好使注解自成一行
robots.txt 的实际应用
通过robots.txt 禁止搜索引擎爬虫
- 在网站的根目录下创建robots.txt 文本文件,编辑代码如下:User-agent:BaiduspiderDisallow:/可以阻止百度爬虫抓取网站内容
通过robots.txt 允许搜索引擎爬虫
- Allow:/SEO/test/(允许蜘蛛爬取SEO下的test目录)可以允许所有搜索引擎爬虫抓取SEO目录下的/test/子目录下的内容
通过robots.txt 控制搜索引擎收录
- Disallow:Disallow:/表明:禁止所有搜索引擎对网站下所有网页的访问
以上就是关于robots.txt 权威指南的相关内容,希望能对你有所帮助。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11594.html