Robots.txt 高手设置手册
1. Robots.txt 的基本概念
什么是Robots.txt
Robots.txt 是一个专门用于搜索引擎网络爬虫的文件,当构建一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt ,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
Robots.txt 的作用
Robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。它是搜索引擎中访问网站的时候要查看的第一个文件。合理的使用robots.txt 文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取。
2. Robots.txt 的设置方法
设置步骤
- 打开文本编辑器,新建一个空白文件并命名为robots.txt 。
- 在文件开头添加User-agent属性和对应的搜索引擎爬虫名称,例如”User-agent:Googlebot”。
- 在该搜索引擎爬虫名称下方添加Disallow属性,并指定不允许访问的页面或目录,例如”Disallow:/private/”。
- 如果要添加多个搜索引擎爬虫的规则,重复以上步骤即可。
- 保存文件并上传至网站根目录下。
注意事项
- 作为搜索引擎最先访问的目录,过长的robots文件也会影响蜘蛛的爬取速度,所以对于禁止搜索引擎的网页,可以适度的去使用noffollow标记,使其不对该网站传递权重。
- 对于Disallow和Allow的设置是有先后顺序之分的,搜索引擎会根据第一个匹配成功的Allow与Disallow来确定首先访问那个url地址。
- 在robots设置当中关于Disallow当中/和//的区别。 在robots文件设置当中,Disallow:/abc是禁止访问abc.html 和/abc/123.html 等文件,而对于disallow:/abc/来说,是允许对于/abc.html 进行访问,但是对于/abc/123.html 是进行禁止的。
- 在robots设置当中“”和“
的设置其中
”匹配行结束符。””匹配0或多个任意字符。
3. Robots.txt 的最佳实践
避免常见错误
- 不要在robots.txt 文件中设置所有的文件都可以被搜索蜘蛛抓取,这样不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt 文件里设置不要让搜索蜘蛛索引这些文件。
- 不要禁止搜索引擎抓取包含关键词的页面,否则会影响网站的排名。
提升效率
- 设置Robots.txt 文件时应注意哪些事项? 1、作为搜索引擎最先访问的目录,过长的robots文件也会影响蜘蛛的爬取速度,所以对于禁止搜索引擎的网页,可以适度的去使用noffollow标记,使其不对该网站传递权重。 2、在robots设置当中关于Disallow当中/和//的区别。 举例:Disallow;/a与Disallow:/a/的区别,很多站长都见过这样的问题,为什么有的协议后加斜杠,有的不加斜杠呢?笔者今天要说的是:如果不加斜杠,屏蔽的是以a字母开头的所有目录和页面,而后者代表的是屏蔽当前目录的所有页面和子目录的抓取。 通常来讲,我们往往选择后者更多一些,因为定义范围越大,容易造成“误杀”。 3、对于Disallow和Allow的设置是有先后顺序之分的,搜索引擎会根据第一个匹配成功的Allow与Disallow来确定首先访问那个url地址。 4、已经删除的目录屏蔽不建议使用Robots.txt 文件屏蔽。 很多站长往往删除一些目录后,怕出现404问题,而进行了屏蔽,禁止搜索引擎再抓取这样的链接。 事实上,这样做真的好吗?即使你屏蔽掉了,如果之前的目录存在问题,那么没有被蜘蛛从库中剔除,同样会影响到网站。 建议最佳的方式是:将对应的主要错误页面整理出来,做死链接提交,以及自定义404页面的处理,彻底的解决问题,而不是逃避问题。
4. 结语
通过合理的设置和使用robots.txt 文件,可以帮助搜索引擎更好地理解你的网站结构,提高网站收录效率,同时也能避免不必要的错误和误解。
mjx-container[jax=”SVG”] {
direction: ltr;
}
mjx-container[jax=”SVG”] > svg {
overflow: visible;
min-height: 1px;
min-width: 1px;
}
mjx-container[jax=”SVG”] > svg a {
fill: blue;
stroke: blue;
}
mjx-container[jax=”SVG”][display=”true”] {
display: block;
text-align: center;
margin: 1em 0;
}
mjx-container[jax=”SVG”][display=”true”][width=”full”] {
display: flex;
}
mjx-container[jax=”SVG”][justify=”left”] {
text-align: left;
}
mjx-container[jax=”SVG”][justify=”right”] {
text-align: right;
}
g[data-mml-node=”merror”] > g {
fill: red;
stroke: red;
}
g[data-mml-node=”merror”] > rect[data-background] {
fill: yellow;
stroke: none;
}
g[data-mml-node=”mtable”] > line[data-line], svg[data-table] > g > line[data-line] {
stroke-width: 70px;
fill: none;
}
g[data-mml-node=”mtable”] > rect[data-frame], svg[data-table] > g > rect[data-frame] {
stroke-width: 70px;
fill: none;
}
g[data-mml-node=”mtable”] > .mjx-dashed, svg[data-table] > g > .mjx-dashed {
stroke-dasharray: 140;
}
g[data-mml-node=”mtable”] > .mjx-dotted, svg[data-table] > g > .mjx-dotted {
stroke-linecap: round;
stroke-dasharray: 0,140;
}
g[data-mml-node=”mtable”] > g > svg {
overflow: visible;
}
[jax=”SVG”] mjx-tool {
display: inline-block;
position: relative;
width: 0;
height: 0;
}
[jax=”SVG”] mjx-tool > mjx-tip {
position: absolute;
top: 0;
left: 0;
}
mjx-tool > mjx-tip {
display: inline-block;
padding: .2em;
border: 1px solid #888;
font-size: 70%;
background-color: #F8F8F8;
color: black;
box-shadow: 2px 2px 5px #AAAAAA;
}
g[data-mml-node=”maction”][data-toggle] {
cursor: pointer;
}
mjx-status {
display: block;
position: fixed;
left: 1em;
bottom: 1em;
min-width: 25%;
padding: .2em .4em;
border: 1px solid #888;
font-size: 90%;
background-color: #F8F8F8;
color: black;
}
foreignObject[data-mjx-xml] {
font-family: initial;
line-height: normal;
overflow: visible;
}
mjx-container[jax=”SVG”] path[data-c], mjx-container[jax=”SVG”] use[data-c] {
stroke-width: 3;
}
原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11624.html