Robots.txt 权威指南屏蔽与引导的艺术
1. Robots.txt 的基本概念和作用
- Robots.txt 的作用:Robots.txt 文件主要用于屏蔽一个或多个搜索引擎禁止收录你网站上的内容。默认情况下网站都是允许任何搜索引擎抓取和收录页面的,但出于某种目的,你可以屏蔽某个或多个搜索引擎收录你网站上的页面。
- Robots.txt 的位置:当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt, 如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围。
2. Robots.txt 的编写规则
- User-agent和Disallow的使用:User-agent后面只能是具体的蜘蛛名称或星号,而disallow和allow后面的内容是全站时均使用斜杠而不是其他符合,因为他们后面的是指网站的目录。
- 通配符的使用:支持”*”匹配0或多个任意字符,”$”匹配行结束符,对大小写敏感,所以要注意文件或文件夹的名称精确匹配。
3. Robots.txt 的实际应用案例
- 屏蔽特定搜索引擎:可以通过在robots.txt 中加入一个”Disallow”字段来实现。例如,如果你不希望让别人通过搜索引擎来访问你的博客中的”xxx”文章的话,那么你就可以在robots.txt 中加入一行”Disallow:/xxx/”。
- 引导爬虫抓取网站地图:robots.txt 文件里还可以直接包括在sitemap文件的链接。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt 文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
4. 注意事项和误区
- robots.txt 的重要性:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt 文件时,服务器也将在日志中记录一条404错误文件,所以你应该在网站中添加一个robots.txt 。
- 关于JavaScript文件的提醒:谷歌不建议用robots.txt 屏蔽js文件,因为现在Google已经开始通过执行JavaScript来了解网页了。
5. 如何正确编写和使用robots.txt
- 使用站长工具:对于SEO小白来说,最好还是使用站长工具去生成robots.txt 文件,防止规则写错,有时候真的是”一念天堂,一念地狱”的差别,要是robots.txt 文件规则写错了,有可能会导致整个网站搜索引擎不收录的情况。
以上内容综合了多个权威来源的信息,希望能帮助您更好地理解和使用robots.txt 。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11592.html