robots陷阱常见语法错误及规避策略!

Robots.txt 陷阱常见语法错误及规避策略常见语法错误错误一:一行Disallow声明多个目录这是一个比较常见的错误。在robots.txt 中,如

Robots.txt 陷阱常见语法错误及规避策略

常见语法错误

错误一:一行Disallow声明多个目录

这是一个比较常见的错误。在robots.txt 中,如果在一个Disallow指令行中放入了多个目录,绝大多数的spiders对上述声明行都无法做出正确的解析。

错误二:屏蔽某一个页面时,页面名前没有带上斜杠“/”

有的人在robots上可能会这么写:Disallow:abcd.html ,表面上看可能没什么问题,但是如果不带上的话,搜索引擎蜘蛛无法识别是在哪一个页面。

错误三:禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的HEAD部分:metaname=robotscontent=nofollow。

错误四:重定向到另外一个页面

当访问很多没有设置robots.txt 文件的站点时,会被自动重定向到另外一个常常会以处理robots.txt 文件的方式处理这个页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt 文件在站点根目录下。

规避策略

策略一:正确使用Disallow指令

每个Disallow指令行只能声明一个目录,且页面名前必须带上斜杠“/”。

策略二:合理使用元标记

如果不想搜索引擎追踪此网页上的链接,且不传递链接的权重,应该使用元标记置入网页的HEAD部分:metaname=robotscontent=nofollow。

策略三:放置空白robots.txt 文件

为了避免搜索引擎错误地处理重定向后的页面,最好能在站点根目录下放置一个空白的robots.txt 文件。

总结

robots.txt 文件的语法非常重要,任何错误都可能导致搜索引擎不能正常爬行站点。因此,编写robots.txt 文件时一定要注意语法的正确性。

原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11622.html

(0)
Ur47000Ur47000
上一篇 2024年6月2日 下午8:26
下一篇 2024年6月2日 下午8:26

相关推荐