搜索引擎工作原理爬行与抓取

发布时间：2021-12-18 09:21 所属栏目：122 来源：互联网

导读：搜索引擎工作过程大体分为三个阶段：爬行和抓

搜索引擎工作过程大体分为三个阶段：爬行和抓取、预处理、排名。而今天主讲部分就是爬行和抓取。

1、蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider）或爬虫。搜索引擎蜘蛛访问网站类似于用户使用浏览器。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并行发布爬行。

蜘蛛访问任何一个网站都是先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止抓取，蜘蛛将不进行抓取。

搜索引擎蜘蛛也会自我标明身份，站长可以在日志文件中辨识搜索引擎蜘蛛（如：Baiduspider百度蜘蛛）

2、链接跟踪

为了尽可能的抓取网站的页面，蜘蛛会跟踪页面上的链接。从一个页面到下一个页面，就像蜘蛛在蜘蛛网上爬行一样，这也是搜索引擎蜘蛛这个名称的由来。

由于网站及页面链接结构异常复杂，蜘蛛需采取一定的爬行策略才能遍历网站上所有页面。这里就涉及到了两种爬行遍历策略：深度优先和广度优先。

如下图所示：蜘蛛从A页面爬行到A1、A2、A3，到A3页面已经没有其他链接可以跟踪就返回A页面。然后顺着B1继续往下走。在这个遍历过程中，蜘蛛一直爬到无法再向前，才返回爬另一条线。

深度优先遍历
如下图所示：蜘蛛从A页面顺着连接爬行到A1、B1、C1页面，直到页面上的所有链接都爬行完，然后再从A1页面发现的下一层链接再爬行A2、A3、A4页面。

广度优先遍历

理论上说，只要给时间，这两种方法蜘蛛都可以爬完整个互联网。但在实际工作中，蜘蛛的带宽资源，时间都是有限的，不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。深度和广度优先通常是混合使用的，这样既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先），同时也会考虑页面权重，网站规模，外链，更新等因素。

3、吸引蜘蛛

既然蜘蛛不可能爬行和抓取所有页面，那SEO人员要向让自己的页面更多的被抓取，就要想法设法吸引蜘蛛来抓取。那哪些比较页面才会吸引蜘蛛呢？又或者说哪些页面才是搜索引擎认为比较重要呢？一共有下面5个方面。

（1）网站和页面权重

质量高，资格老的网站被认为权重比较高，被爬行的深度也会比较高，也就会有更多内页被收录。

（2）页面更新度

每次蜘蛛抓取页面都会存储起来。如果第二次爬行发现页面和第一次收录的完全一样，说明页面没有更新，多次之后就会减低抓取频率。如果页面经常更新，蜘蛛访问会更加频繁，同时也会更快跟踪和抓取更多的页面。

（3）导入链接

无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。

（4）与首页点击距离

一般来说网站首页权重是最高的，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。

（5）URL结构

页面权重是在收录并进行迭代计算后才知道的，那么前面说的页面权重高有利于被抓取，搜索引擎蜘蛛在抓取前怎么知道这个页面的权重呢？所以蜘蛛要进行预判，除了链接、与首页距离。历史数据等因素外、短的，层次浅的URL也可能被直观认为网站上的权重相对较高。

4、地址库

为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现、但还没有被抓取的页面，以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问，而是将URL存入地址库，然后统一安排抓取。地址库中的URL有几个来源：

（1）人工录入的种子网站。

（2）蜘蛛抓取页面从新页面中解析出的新的链接URL，再与地址库中的数据对比，如果没有在地址库，就存入待访问地址库。

（3）站长通过搜索引擎网页提交表格提交进来的网址。

（4）站长通过XML网站地图，站长平台提交的网址。

（编辑：ASP站长网）

搜索引擎工作原理 爬行与抓取

搜索引擎工作原理爬行与抓取