搜索引擎蜘蛛爬行规律解析优化网站抓取与索引

1. 搜索引擎蜘蛛爬行原理

1.1. 控制器、解析器和索引数据库

搜索引擎蜘蛛的工作流程主要分为三个部分：控制器、解析器和索引数据库。控制器负责收集URL集合，并分配URL集合给解析器。解析器获得URL集合后，通过访问URL并下载页面。索引数据库存储解析器下载的页面并分析页面内容，以此来确认是否建立数据缓存。

1.2. 爬行惯性规则

不同搜索引擎的蜘蛛有不同的爬行习惯。例如，百度蜘蛛爬行谨慎，收录更谨慎；Google蜘蛛不太爱爬，但爱收录；Soso蜘蛛爱爬图片，经常绕在动态地址里出不来；Yahoo蜘蛛恪守规则，每次都是先爬robots.txt 等。

2. 网站优化抓取与索引

2.1. 原创内容与规律更新

网站优化一直坚持“内容为王”的时代，想要得到蜘蛛更多的爬行就需要用原创的内容来吸引搜索引擎蜘蛛的注意，对网站更加信赖，更对你的网站产生跟多的好感。

2.2. 提升页面加载速度

关于网站页面的加载速度也跟主机服务器有很大的关系，网站在建设时一定要选择是个自己网站发展、容量适中的服务器，同时，也要定期检查CPU和内存的利用率，以及服务器是否受到持续攻击。全面保证网站打开的速度，更有利于搜索引擎蜘蛛和用户的访问。

2.3. 网站框架设计

网站内部框架一般都要尽可能的简洁明了，结构清晰，这样不仅能给用户们更好的浏览体验还能有利于搜索引擎蜘蛛的抓取。在抓取网站的同时，网页的flash图像要尽量少，flash格式的内容影响蜘蛛抓取。在设计中，锚文本的数量和形式都要进行合理分布，对于内部链路的设计也应该是平滑的，这样才能够更有利于权重传递，以及蜘蛛的爬行。

3. 抓取与索引的相关概念

3.1. 爬行、抓取、索引、收录的概念

爬行是指搜索引擎蜘蛛从已知页面上解析出链接指向的URL，然后沿着链接发现新页面的过程。抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，并把读取的HTML代码存入数据库。索引是指将一个URL的信息进行整理，并存入数据库（索引库），用户搜索时，搜索引擎从索引库中提取URL信息并排序展现出来。收录则是指用户搜索时能找到这个URL，就是这个URL被收录了。