作为网站SEO优化师,观察网站服务器日志是一件日常的工作,有可能会遇到这样的问题,那就是网站爬虫来得太少。今天我们就来说一下影响网站爬虫来访问的因素。
爬虫,在互联网中师搜索引擎公司编写的抓取企业网站页面的工具,具备探测和抓取网页的能力,简单的说就是发现网页,并把网页带回到搜索引擎的数据库。其运作原理是寻着互联网中的各种超链接访问不同的网站,因此链接是爬虫访问的通路。
那么影响爬虫来得少的原因是哪些呢?下面就由成都网站建设来为大家分析分析。
1、外部链接太少。
这里指的外部链接,主要是外链。包括友情链接,留在博客、论坛、贴吧等的链接。这些链接都会被爬虫爬取,使得爬虫频繁来到网站。外部链接的作用就是让爬虫能够有足够的入口访问网站。因此,随着网站的发展,网站的外链应该称比例增加。但是不建议盲目添加或批量添加大量外链,让爬虫不断访问同样的网页是没有意义的,反而会遭到降权。
2、网站最近受到降权处罚
这个主要是黑帽操作所谓,或者是因为网站安全问题,被黑客攻击,被挂黑链,站外有大量垃圾外链等,引起网站被降权处罚,至使爬虫降低访问频率。解决办法是,清理所有黑帽技术,如链接工厂,处理掉网站的挂马或黑链,修复网站漏洞。并在外部发布高质量外链,逐步使网站恢复信任。
3、人为调整网站访问频率
站长工具可以调整爬虫访问的频率,可查看是否因操作问题,失误造成爬虫访问频率低。建议将此频率改为自动,一般无需调整站长工具的爬虫抓取频率。
4、内部内容更新太少
更新是指网站的内容,主要是文章信息。爬虫喜欢新的东西,如果每次来爬取网站,内容都没有太大变化,爬虫来得也就少了。对于企业不能为了更新而更新,也不能不更新,尤其是企业网站,本来就没有太多可更新的内容,建议每周更新2-3篇文章即可,有条件或有专业团队的企业可以每天更新一篇文章。
5、网站内容质量差
更新是一个工作,但是大量的抄袭互联网的信息是不被搜索引擎认可的。建议更新内容为原创的,或者是比其他互联网内容更好的内容(我们称之为伪原创)。
6、服务器问题
这里主要是指共享IP的虚拟主机,因为服务器中有太多站点,极有可能有的网站被黑,或者是某站长在网站中使用比较耗费资源的程序,让爬虫抓去困难或者不信任,造成爬虫访问频率低。另外一种可能是你的网站服务器设置了IP黑白名单,把爬虫给屏蔽了,这种情况会没有爬虫访问。