搜索引擎是如何知道并查看我的网站的？

作者：创新互联文章来源：技术部点击数：更新时间：2015-09-13
搜索引擎爬虫只能分析文字、Web链接和Web页的某些HTML标注代码，然后在基于每个页面的单词统计进行关于页面特性，品质和主题关联的引用。

搜索引擎无法看到以下内容：

1、显示文字的同时显示图、标题、条幅广告以及公司logo。

2、Flash动画、视频以及音频内容。

3、页面文字内容稀少，且有大量未添加标签的图形。

4、基于JavaScript或者其他动态代码的导航链接（爬虫不能执行JavaScript的代码）。

5、注入RSS反馈之类的内容功能，以及基于页面上的JavaScript显示的其他文字。

6、Microsoft Word文档和Acrobat PDF文件可以被一些但是非全部的Web爬虫阅读到，通常人们都不是十分清楚这些非HTML内容格式是如何影响排名的。

一下可能会导致爬虫绕过网页：

1、页面拥有复杂的结构，即深层嵌套的表格、很多框架或者使用了复杂的HTML。

2、位于页面HTML代码列表顶部的长JavaScript或CSS代码，爬虫会放弃那些看起来像是空白的页面。

3、带有无效链接的页面，爬虫会放弃那些带有很多无效链接的页面，他们不可能跟随无效链接查找到新的页面。

4、带有关键字垃圾信息的内容（在隐藏文字、替代图像文字或者元标签中重复的关键字）。现在，搜索引擎会忽略这些原本不相关的组合，如果使用这些技术，你的页面甚至有可能会被搜索引擎所禁止。

5、用户将用户从某个旧的URL指向新的URL的服务器端或者元刷新重定位，很多爬虫不会跟随重定向的链接指向新页面。

以上就是我们经常看到的爬虫如何知道并抓取我们页面内容的，以上的种种不利于爬虫抓取的页面除了会降低页面的可被搜索性外，这些拙劣的方式还会降低网站的可访问性，尤其是对于那些使用屏幕阅读软件来访问Web内容的人，SEO、内容结构性标注以及通用可用性是完美的超值组合，通过使用最佳的内容标注进行网站内容和链接的管理，网站的质量度就会提高，也有利于增加访客的用户体验，用户对它的可访问性也会得到改善。
建站完成后如何向搜索引擎提交及注意事项 :上一篇
好内容可以提高你的网站流量转化率 :下一篇

营销推广

服务器租用

企业邮箱

虚拟主机

网站程序

网站建设

域名注册

前端开发

网站备案

移动互联网

搜索引擎是如何知道并查看我的网站的？

搜索引擎是如何知道并查看我的网站的？

搜索引擎相关文章