本文主要介绍百度蜘蛛(又称百度机器人)Baiduspider,的工作原理。这样有利于我们更好的理解搜索引擎工作原理更好的进行SEO 操作。
spider在工作的时候 ,会通过搜索引擎系统计算,来决定对哪些网站实施抓取,以及抓取的内容和频率,搜索引擎的计算过程会参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化 行为等 等。
当您的的网站产生新的内容页面的时候,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中新增的内容页面,则百度搜索机器人程序是无法对其进行抓取的,对于已经被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。
百度蜘蛛相关的知识:
1、蜘蛛的介绍
搜索引擎对互联网网页进行爬取工作是有爬虫来完成的,爬虫是一个爬取程序,通常我们称为蜘蛛,因为百度的爬虫命名是Baiduspider(中文译名:百度蜘蛛)谷歌的爬虫命名是GoogleBot(中文译名:谷歌机器人),国内大部分人主要是做百度搜索引擎的排名优化,所以普遍把搜索引擎的爬取程序叫蜘蛛。
2、蜘蛛的功能
搜索引擎的爬取程序,主要有链各个功能,负责两项工作。
一是要去对目标页面进行爬取,资源下载存储到网页库。
二是对已下载的网页进行链接识别,提取网页中的链接,作为待抓取目标。
3、蜘蛛的抓取策略
蜘蛛不仅仅要对目标网页进行抓取,也同时要发现新的URL,那么蜘蛛是怎么样来收集URL的呢?搜索引擎抓取了A页面信息,并且收集A页面上所有的URL,去掉URL库中已经存在的链接,新的链接天界到待抓取队列。对这些新的URL到底什么时间再去进行抓取,跟A页面的权重有很大的关系。通常业内人士经常说的引蜘蛛便是道蜘蛛访问频次较高的页面留下自己网站的链接,让蜘蛛更快地发现该链接。
4、蜘蛛的识别
先在IIS日志中找到蜘蛛的IP地址
点击开始–运行–输入cmd–点确定–输入nslookup IP地址-回车。有Baiduspider信息。