搜索引擎爬虫只能分析文字、Web链接和Web页的某些HTML标注代码,然后在基于每个页面的单词统计进行关于页面特性,品质和主题关联的引用。
搜索引擎无法看到以下内容:
1、显示文字的同时显示图、标题、条幅广告以及公司logo。
2、Flash动画、视频以及音频内容。
3、页面文字内容稀少,且有大量未添加标签的图形。
4、基于JavaScript或者其他动态代码的导航链接(爬虫不能执行JavaScript的代码)。
5、注入RSS反馈之类的内容功能,以及基于页面上的JavaScript显示的其他文字。
6、Microsoft Word文档和Acrobat PDF文件可以被一些但是非全部的Web爬虫阅读到,通常人们都不是十分清楚这些非HTML内容格式是如何影响排名的。
一下可能会导致爬虫绕过网页:
1、页面拥有复杂的结构,即深层嵌套的表格、很多框架或者使用了复杂的HTML。
2、位于页面HTML代码列表顶部的长JavaScript或CSS代码,爬虫会放弃那些看起来像是空白的页面。
3、带有无效链接的页面,爬虫会放弃那些带有很多无效链接的页面,他们不可能跟随无效链接查找到新的页面。
4、带有关键字垃圾信息的内容(在隐藏文字、替代图像文字或者元标签中重复的关键字)。现在,搜索引擎会忽略这些原本不相关的组合,如果使用这些技术,你的页面甚至有可能会被搜索引擎所禁止。
5、用户将用户从某个旧的URL指向新的URL的服务器端或者元刷新重定位,很多爬虫不会跟随重定向的链接指向新页面。
以上就是我们经常看到的爬虫如何知道并抓取我们页面内容的,以上的种种不利于爬虫抓取的页面除了会降低页面的可被搜索性外,这些拙劣的方式还会降低网站的可访问性,尤其是对于那些使用屏幕阅读软件来访问Web内容的人,SEO、内容结构性标注以及通用可用性是完美的超值组合,通过使用最佳的内容标注进行网站内容和链接的管理,网站的质量度就会提高,也有利于增加访客的用户体验,用户对它的可访问性也会得到改善。