Robots.txt 陷阱常见语法错误及规避策略
常见语法错误
错误一:一行Disallow声明多个目录
这是一个比较常见的错误。在robots.txt 中,如果在一个Disallow指令行中放入了多个目录,绝大多数的spiders对上述声明行都无法做出正确的解析。
错误二:屏蔽某一个页面时,页面名前没有带上斜杠“/”
有的人在robots上可能会这么写:Disallow:abcd.html ,表面上看可能没什么问题,但是如果不带上的话,搜索引擎蜘蛛无法识别是在哪一个页面。
错误三:禁止搜索引擎跟踪网页的链接,而只对网页建索引
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的HEAD部分:metaname=robotscontent=nofollow。
错误四:重定向到另外一个页面
当访问很多没有设置robots.txt 文件的站点时,会被自动重定向到另外一个常常会以处理robots.txt 文件的方式处理这个页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt 文件在站点根目录下。
规避策略
策略一:正确使用Disallow指令
每个Disallow指令行只能声明一个目录,且页面名前必须带上斜杠“/”。
策略二:合理使用元标记
如果不想搜索引擎追踪此网页上的链接,且不传递链接的权重,应该使用元标记置入网页的HEAD部分:metaname=robotscontent=nofollow。
策略三:放置空白robots.txt 文件
为了避免搜索引擎错误地处理重定向后的页面,最好能在站点根目录下放置一个空白的robots.txt 文件。
总结
robots.txt 文件的语法非常重要,任何错误都可能导致搜索引擎不能正常爬行站点。因此,编写robots.txt 文件时一定要注意语法的正确性。
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11622.html