近期在很多QQ群看到Seoer问网站日志这么看的问题,甚至有做了3年以上的站长发了一段普通用户正常访问返回200状态码的日志信息出来问是什么意思。个人认为这是Seo中很基础的知识,但是被大多数站长们忽略了。
首先说下日志记录的内容分类:1、访客访问信息,2、蜘蛛抓取信息。
1、访客访问信息的内容:
2014-07-01 00:23:04 W3SVC50722105 61.155.150.92 GET /news/seo/690.html – 80 – 222.88.71.11 Mozilla/5.0+(Windows+NT+6.1;+WOW64;+rv:30.0)+Gecko/20100101+Firefox/30.0 200 0 0
这是一段用户访问记录,内容是7月1日凌晨12点23分的时候,IP地址为222.88.71.11的用户使用火狐浏览器正常访问了网站www.biz365.net/news/seo/690.html这篇文章。这条记录信息需要注意的几个点:访问网页地址、访问时间、IP地址以及返回状态码。前面几条比较明晰,状态码可能是站长们比较头疼的。
2014-06-30 16:52:52 W3SVC50722105 61.155.150.92 GET /html/success.html – 80 – 202.108.4.123 Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1) 404 0 64
这是一条用户访问404错误信息,由于网站改版造成的目录及网页文件更改后遗症。这些信息也有可能被蜘蛛抓取,所以需要提交百度改版信息或robots屏蔽或提交死链接来屏蔽蜘蛛的抓取。从而减少页面404错误抓取信息。
2014-06-20 17:35:10 W3SVC50722105 61.155.150.92 HEAD /www.biz365.net.rar – 80 – 27.150.236.228 Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+6.1;+Trident/4.0) 404 0 2
这是用户用软件批量扫描网站备份文件所造成的404错误信息其中的一条,很多黑客用这种方法下载网站备份信息从而爆破网站达到网站入侵的方法,可以把网站备份信息单独存放到web目录外的其他目录中预防这种情况发生以及通过屏蔽IP地址等方法解决。
2、蜘蛛抓取信息:
2014-06-30 16:00:46 W3SVC50722105 61.155.150.92 GET /product/qy/12.html – 80 – 66.249.64.36 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0
这是谷歌机器人对www. 域名/product/qy/12.html网页文件的正常抓取信息。
2014-07-01 02:47:09 W3SVC50722105 61.155.150.92 GET /sitemap.xml – 80 – 123.125.71.106 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
这是百度蜘蛛对www.域名/sitemap.xml网站地图的304抓取信息,304代表着文件无修改,百度服务器已经存放了相同信息,缓存信息无修改,无需更新。
日志分析是SEO中非常重要的一个操作。新网站上线可以通过日志进行查看是否被蜘蛛抓取,网站是否存在404错误进行及时纠错,是否被整站扫描下载等,这只是一些常见的日志用途。通过日志分析还可以得到很多其他的信息,希望广大SEO从业人员可以对日志分析重视起来,通过日志分析或许更多的网站信息。