当前位置：创新互联 >> 常见问题 >> 营销推广 >> 搜索引擎 >> 网站优化排名与搜索引擎原理

网站优化排名与搜索引擎原理

作者：创新互联文章来源：点击数：更新时间：2015-02-10
1、基本概念

来源于中文wiki百科的解释：（网络）搜索引擎指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。来源于英文wiki百科的解释：Web search engines provide an interface to search for information on the World Wide Web. Information may consist of web pages, images and other types of files.（网络搜索引擎为用户提供接口查找互联网上的信息内容，这些信息内容包括网页、图片以及其他类型的文档）

2、分类

按照工作原理的不同，可以把它们分为两个基本类别：全文搜索引擎（FullText Search Engine）和分类目录Directory）。
分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也可以归属为原始的分类目录，比如“网址之家”（http://www.hao123.com/）。

全文搜索引擎通过自动的方式分析网页的超链接，依靠超链接和HTML代码分析获取网页信息内容，并按事先设计好的规则分析整理形成索引，供用户查询。

两者的区分可用一句话概括：分类目录是人工方式建立网站的索引，全文搜索是自动方式建立网页的索引。（有些人经常把搜索引擎和数据库检索相比较，其实是错误的）。

3、全文搜索的工作原理

全文搜索引擎一般信息采集、索引、搜索三个部分组成，详细的可由搜索器、分析器、索引器、检索器和用户接口等5个部分组成

（1）信息采集（Web crawling）：信息采集的工作由搜索器和分析器共同完成，搜索引擎利用称为网络爬

（crawlers）、网络蜘蛛（spider）或者叫做网络机器人（robots）的自动搜索机器人程序来查询网页上的超链接。

进一步解释一下："机器人"实际上是一些基于Web的程序，通过请求Web站点上的HTML网页来对采集该HTML网页，它遍历指定范围内的整个Web空间，不断从一个网页转到另一个网页，从一个站点移动到另一个站点，将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页，都要搜索它内部的所有链接，所以从理论上讲，如果为"机器人"建立一个适当的初始网页集，从这个初始网页集出发，遍历所有的链接，"机器人"将能够采集到整个Web空间的网页。

网上后很多开源的爬虫程序，可以到一些开源社区中查找。

关键点1：核心在于html分析，因此严谨的、结构化的、可读性强、错误少的html代码，更容易被采集机器人所分析和采集。例如，某个页面存在这样的结尾，在网页显示是没有问题的，但是很有可能会被采集拒绝收录，在例如类似../../***.htm这样的超链接，也有可能造成蜘蛛无法识别。这也是需要推广web标准的原因之一，按照web标准制作的网页更容易被搜索引擎检索和收录。

关键点2：搜索机器人有专门的搜索链接库，在搜索相同超链接时，会自动比对新旧网页的内容和大小，如果一致，则不采集。因此有人担心修改后的网页是否能被收录，这是多余的。

（2）索引（Indexing）：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库，如ORACLE、Sybase等，也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提高检索速度。

关键点1：虽然现在的搜索引擎都支持增量的索引，但是索引创建依然需要较长的时间，搜索引擎都会定期更新索引，因此即便爬虫来过，到我们能在页面上搜索到，会有一定的时间间隔。

关键点2：索引是区别好坏搜索的重要标志。

（3）检索（Searching）：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询之前已经计算了各个网页的网页等级（Page Rank 后文会介绍），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。

关键点1：不同搜索引擎有不同的排序规则，因此在不同的搜索引擎中搜索相同关键词，排序是不同的。

（2）索引（Indexing）：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库，如ORACLE、Sybase等，也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提高检索速度。

关键点1：虽然现在的搜索引擎都支持增量的索引，但是索引创建依然需要较长的时间，搜索引擎都会定期更新索引，因此即便爬虫来过，到我们能在页面上搜索到，会有一定的时间间隔。

关键点2：索引是区别好坏搜索的重要标志。

（3）检索（Searching）：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询之前已经计算了各个网页的网页等级（Page Rank 后文会介绍），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。

关键点1：不同搜索引擎有不同的排序规则，因此在不同的搜索引擎中搜索相同关键词，排序是不同的。
搜索引擎如何判断核心内容的思考 :上一篇
让搜索引擎更喜欢你的网站 :下一篇

营销推广

服务器租用

企业邮箱

虚拟主机

网站程序

网站建设

域名注册

前端开发

网站备案

移动互联网

网站优化排名与搜索引擎原理

网站优化排名与搜索引擎原理

搜索引擎相关文章