成都网站建设|域名注册|虚拟主机|网站制作|网站案例|网站优化|网站推广|企业邮局|服务器租用|广告设计
宽度优先遍历是一种非常简单直观且历史 也悠久的遍历方法,在搜索引擎爬虫一出现就开始采用,新提出的抓取策略往往会将这种方法作为比较基准。但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见得比宽度优先遍历策略好,所以至今这种方法也是很多实际爬虫系统优先采用的抓取策略。
那么,什么是宽度优先遍历呢?其实上文所说的“将新下载网页包含的链接直接追加到待抓取URL队列末尾”,这就是宽度优先遍历的思想。也就是说,这种方法并没有明确提出和使用网页重要性衡量标准,只是机械地将新下载的网页抽取链接,并追加到待抓取URL队列中,以此安排URL的下载顺序。
实验表明这种策略效果很很,虽然看似机械,但实际上的网页抓取顺序基本是按照网页的重要性排序的。之所以如此,有研究人员认为:如果某个网页包含很多入链,那么更有可能被宽度优先遍历策略早早抓取,而入链个数从侧面体现了网页的重要性,即实际上宽度优先遍历策略隐含了一些网页优先级假设。