robots权威指南拒绝搜索引擎的规则制定!

robots.txt 权威指南robots.txt 的基本概念robots.txt 的作用用于禁止网络爬虫访问网站指定目录用于告诉爬虫抓取网站上的指定路径

robots.txt 权威指南

robots.txt 的基本概念

robots.txt 的作用

  • 用于禁止网络爬虫访问网站指定目录
  • 用于告诉爬虫抓取网站上的指定路径文件或内容
  • 用于网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接
  • 用于屏蔽死链接、404错误页面;屏蔽无内容、无价值页面,像后台管理页面等
  • 用于屏蔽任何不想被收录的页面

robots.txt 的格式

  • 采用面向行的语法:空行、注释行(以#打头)、规则行
  • 每条记录的第二个域是Disallow:指令行,声明了该网站中不希望被访问的文件和(或)目录
  • User-Agent、Disallow、Allow行是常见的规则行

robots.txt 的编写规则

robots.txt 的编写位置

  • 必须位于域名的根目录中并被命名为robots.txt
  • 位于子目录中的robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件

robots.txt 的编写内容

  • User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录

robots.txt 的其他注意事项

  • 为了避免歧义,最好使注解自成一行

robots.txt 的实际应用

通过robots.txt 禁止搜索引擎爬虫

  • 在网站的根目录下创建robots.txt 文本文件,编辑代码如下:User-agent:BaiduspiderDisallow:/可以阻止百度爬虫抓取网站内容

通过robots.txt 允许搜索引擎爬虫

  • Allow:/SEO/test/(允许蜘蛛爬取SEO下的test目录)可以允许所有搜索引擎爬虫抓取SEO目录下的/test/子目录下的内容

通过robots.txt 控制搜索引擎收录

  • Disallow:Disallow:/表明:禁止所有搜索引擎对网站下所有网页的访问

以上就是关于robots.txt 权威指南的相关内容,希望能对你有所帮助。

robots权威指南拒绝搜索引擎的规则制定!

原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11594.html

(0)
Ur47000Ur47000
上一篇 2024年6月2日 下午8:25
下一篇 2024年6月2日 下午8:25

相关推荐