搜索引擎网络爬虫--成都SEO优化

作者：创新互联文章来源：SEO 点击数：更新时间：2009-09-15
通用搜索引擎的处理是互联网网页，目前网页数量以百亿计，所以搜索引擎首先面临的问题就是：如何能够设计出高效的下载系统，以将如此海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。

网络爬虫即起此作用，它是搜索引擎系统中很关键也很基础的构件。本章主要介绍与网络爬虫相关的技术，尽管爬虫技术经过几十年的发展，从整体框架上已相对成熟，但随着互联网的不断发展，也面临着一些有挑战性的新问题。

通用爬虫框架

一个通用的爬虫框架流程。首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为服务器对应的IP地址。然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的URL放入抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复人抓取。对于刚下载的网页，从中抽取所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入URL放入待抓取URL队列末尾，在之后的抓取调度中会下载这个URL对应的网页。如此这般，形成循环，直到待抓取URL队列为空，这代表着爬虫系统已将能够抓取的网页尽数抓完，此时完成一轮完整的抓取过程。
seo新手一定要知道的知识 :上一篇
到底哪些是网站创业的网站交易文章 :下一篇

营销推广

服务器租用

企业邮箱

虚拟主机

网站程序

网站建设

域名注册

前端开发

网站备案

移动互联网

搜索引擎网络爬虫--成都SEO优化

搜索引擎网络爬虫--成都SEO优化

seo优化相关文章