当前位置：创新互联 >> 常见问题 >> 营销推广 >> 搜索引擎 >> 暗网抓取搜索引擎爬虫

暗网抓取搜索引擎爬虫

作者：创新互联文章来源：网络营销部点击数：更新时间：2010-09-16
      物理学研究表明，在目前宇宙所有物质的总体质量中，星系等可见物质只占其中的20%，不可探测的暗物质占据了总质量的大约80%。互联网中的暗网可与宇宙中的暗物质相类比，而其所占网页的比例，更是远大于暗物质占宇宙的比例，大约百倍于目前的明网网页。

     所谓暗网，是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。如前所述，搜索引擎爬虫依赖页面中的链接关系发现新的页面，但是很多网站的内容是以数据库方式存储的，典型的例子是一些垂直领域网站，比如携程旅行网的机票数据，很难有显式链接指向数据库内的记录，往往是服务网站提供组合查询界面，只有用户按照需求输入查询之后，才可能获得相关数据。所以，常规的爬虫无法索引这些数据内容，这是暗网的命名由来。

   为了能够对暗网数据进行索引，需要研发与常规爬虫机制不同的系统，这类爬虫被称做暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入搜索引擎的索引，这样用户在搜索时便可利用这些数据，增加信息覆盖程度。

    目前大型搜索引擎服务提供商都将暗网挖掘作为重要研究方向，因为这直接关系到索引量的大小。在此领域的技术差异，将直接体现在搜索结果在全面性上，自然是竞争对手之间的必争之地。Google目前将其作为重点研发方向，而百度的“阿拉丁计划”目的也在于此。

   垂直网站提供的搜索界面，往往需要人工选择或者填写内容，比如机票搜索需要选择出发地、到达地和日期，图书搜索需要指出书名或者作者。而暗网爬虫为了能够挖掘数据库的记录，必须模拟人的行为，填写内容并提交表单。对于暗网爬虫来说，其技术挑战有两点:一是查询组合太多，如果一一组合遍历，那么会给被访问网站造成太大压力，所以如何精心组合查询选项是个难点；第二点在于：有的查询是文本框，比如图书搜索中需要输入书名，爬虫怎样才能够填入合适的内容？这个也颇具挑战性。
几大搜索引擎排名算法趣味解析 :上一篇
网页更新收搜变动策略 :下一篇

营销推广

服务器租用

企业邮箱

虚拟主机

网站程序

网站建设

域名注册

前端开发

网站备案

移动互联网

暗网抓取搜索引擎爬虫

暗网抓取搜索引擎爬虫

搜索引擎相关文章