一直以来,总认为小网站的结构非常简单,页面数量非常少,一般情况下搜索引擎是可以轻而易举的抓取和收录,加上关键词并不是特别热门,所以不用三天两头的查看网站日志。但是后来发现,事实并非如此:网站虽小并不代表没有问题,结构简单并不等于完全收录,也不等于容易获得好的排名。
网站日志是记录服务器的日常动态,特别是搜索引擎爬行和抓取的动态,通过日志能很清晰的分析出来。看看有多少304,多少404,看看哪些页面被过渡抓取,哪些始终没有被爬行,每个页面的平均抓取时间,蜘蛛每次访问网站的抓取深度,蜘蛛每天到访网站的次数等等,这些都能直接反应网站目前的问题。
访问次数侧面反应权重
蜘蛛访问网站的次数能侧面反应出网站自身的权重,一般小网站单个蜘蛛每天来访的次数大概在几十次。如果高于几十次,那么说明通过链接爬行到网站上的次数较多,那么抓取收录的机会就会大一些,最终对排名也是有积极的影响。如果每天来访一两次甚至零次,那么网站非常危险。
404页面降低整体权重
每个网站或多或少的都有404错误页面,这是不可避免的现象。有时候是空间上本身问题,有时候是自身网站的设置问题,有时候是外部网站存在外部链接的问题,从日志中一旦发现,就应该立刻调整。如果是抓取某个URL404特别多的话,需要在网站上建立这样一个URL页面,有效的利用,也可以修改robots文件给予屏蔽,禁止抓取。大量的404错误会被蜘蛛记录下来,对网站是减分印象,所以会从整体上降低网站的权重。
根据抓取排行做调整
在很多网站日志中,都能清晰的看到页面的抓取排行,URL的抓取排行,这些排行最能直接的反应网站的那些部分是最受蜘蛛欢迎的。如果出现了很多css或js的文件都被大量的访问,那么页面中这样的链接就大大浪费了权重,所以需要修改robots文件给予禁止。查看有些网站的日志,能明显的看到那些被过渡抓取,那些重点内容抓取的较少,这样观察之后就能做到心中有数,可以有的放矢。比如之前我的网站会莫名奇妙的多出一些抓取文件夹,而这些文件夹在网站中是并不存在的,所以要及时发现,并给予屏蔽。
另外,也偶尔也会出现一些500、206等状态码,这些都是日常的一些小问题引起的,不必过于担心。而如果大量集中的出现就说明服务器本身有问题,另外在根目录中尽量不要放置压缩文件,这样会被一些别有用心的人尝试下载网站的源码或者备份的数据。还有助于304状态码,这个说明也正常,是网站没有更新造成的。
定期查看网站的日志其实并不会占用我们太多的时间,但如果一直不查看,网站就会有很多的小问题我们无从知晓,或许友情连接我们做了,原创内容也更新了,外部链接也不停在发,但是排名却一直非常缓慢,那么这个时候就不妨看看你的日志,说不定问题就出在这里边。