robots广泛兼容支持的搜索引擎类型详解!

Robots.txt 广泛兼容支持的搜索引擎类型详解1. 搜索引擎及其爬虫名称百度:Baiduspider谷歌:Googlebot]360搜索:360Sp

Robots.txt 广泛兼容支持的搜索引擎类型详解

1. 搜索引擎及其爬虫名称

  • 百度:Baiduspider
  • 谷歌:Googlebot]
  • 360搜索:360Spider]
  • 有道:YodaoBot]
  • Alexa:is_archiver]
  • altavista:Scooter]

2. robots.txt 的基本功能和作用

  • 禁止爬虫访问:robots.txt 用于禁止网络爬虫访问网站指定目录]
  • 控制搜索引擎抓取范围:通过robots.txt 文件,网站可以控制搜索引擎的抓取范围,决定哪些页面应该被索引,哪些页面应该被忽略

3. robots.txt 的编写方法

  • User-agent:指定下面的规则适用于哪个爬虫,通配符星号*代表所有爬虫]
  • Disallow:告诉爬虫不要去抓取某些文件或目录,写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录]
  • Allow:告诉爬虫应该抓取某些文件或目录,由于不指定则是允许抓取,故Allow必须和Disallow一起用]
  • **

    :通配符,匹配URL结果的字符]

  • ****:通配符,匹配任意字符]
  • Sitemap:告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好]

4. robots.txt 的使用示例

  • 禁止所有搜索引擎访问网站的任何部分:User-agent:*Disallow:/]
  • 允许所有的爬虫访问:User-agent:*或者也可以建一个空文件:robots.txt]
  • 禁止某个搜索引擎的访问:User-agent:BadBotDisallow:/]
  • 只允许某个搜索引擎的访问:User-agent:WebCrawler]

注意事项

  • robots.txt 的语法:robots.txt 文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结束符),在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样]
  • robots.txt 的位置:robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写]
  • robots.txt 的生效性:搜索引擎默认的遵守robots.txt 协议,如果找不到robots.txt 文件,则沿着链接抓取]

mjx-container[jax=”SVG”] {
direction: ltr;
}

mjx-container[jax=”SVG”] > svg {
overflow: visible;
min-height: 1px;
min-width: 1px;
}

mjx-container[jax=”SVG”] > svg a {
fill: blue;
stroke: blue;
}

mjx-container[jax=”SVG”][display=”true”] {
display: block;
text-align: center;
margin: 1em 0;
}

mjx-container[jax=”SVG”][display=”true”][width=”full”] {
display: flex;
}

mjx-container[jax=”SVG”][justify=”left”] {
text-align: left;
}

mjx-container[jax=”SVG”][justify=”right”] {
text-align: right;
}

g[data-mml-node=”merror”] > g {
fill: red;
stroke: red;
}

g[data-mml-node=”merror”] > rect[data-background] {
fill: yellow;
stroke: none;
}

g[data-mml-node=”mtable”] > line[data-line], svg[data-table] > g > line[data-line] {
stroke-width: 70px;
fill: none;
}

g[data-mml-node=”mtable”] > rect[data-frame], svg[data-table] > g > rect[data-frame] {
stroke-width: 70px;
fill: none;
}

g[data-mml-node=”mtable”] > .mjx-dashed, svg[data-table] > g > .mjx-dashed {
stroke-dasharray: 140;
}

g[data-mml-node=”mtable”] > .mjx-dotted, svg[data-table] > g > .mjx-dotted {
stroke-linecap: round;
stroke-dasharray: 0,140;
}

g[data-mml-node=”mtable”] > g > svg {
overflow: visible;
}

[jax=”SVG”] mjx-tool {
display: inline-block;
position: relative;
width: 0;
height: 0;
}

[jax=”SVG”] mjx-tool > mjx-tip {
position: absolute;
top: 0;
left: 0;
}

mjx-tool > mjx-tip {
display: inline-block;
padding: .2em;
border: 1px solid #888;
font-size: 70%;
background-color: #F8F8F8;
color: black;
box-shadow: 2px 2px 5px #AAAAAA;
}

g[data-mml-node=”maction”][data-toggle] {
cursor: pointer;
}

mjx-status {
display: block;
position: fixed;
left: 1em;
bottom: 1em;
min-width: 25%;
padding: .2em .4em;
border: 1px solid #888;
font-size: 90%;
background-color: #F8F8F8;
color: black;
}

foreignObject[data-mjx-xml] {
font-family: initial;
line-height: normal;
overflow: visible;
}

mjx-container[jax=”SVG”] path[data-c], mjx-container[jax=”SVG”] use[data-c] {
stroke-width: 3;
}

原创文章,作者:Ur47000,如若转载,请注明出处:https://wyc.retuba.cn/11588.html

(0)
Ur47000Ur47000
上一篇 2024年6月2日 下午8:25
下一篇 2024年6月2日 下午8:25

相关推荐