搜索引擎算法定义
获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎的数据库是依靠一个叫“网络机器人(crawlers)”或叫“网络蜘蛛(Spider)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。为了更好的服务网络搜索,搜索引擎的分析整理规则---即搜索引擎算法是变化的。
某搜索引擎排名的计算公式
*leScore=(KWUsageScore*0.3)+(DomainStrength*0.25)+(InboundLinkScore*0.25)+(UserData*0.1)+(ContentQualityScore*0.1)+(ManualBoosts)–(Automated&ManualPenalties)
翻译:
*分数=(相关关键词分数X0.3)+(域名权重X0.25)+(外链分数X0.25)+(用户数据X0.1)+(内容质量分数X0.1)+(人工加分)-(自动或人工降分)
公式中的因子分析
从公式中我们可以清楚的知道,影响pagerank分数的因素依次是“相关关键词”、“域名”、“外链”、“用户数据”、“内容质量”以及“人工干预”六个方面。那么又是哪些因素影响到了这几个方面呢?
一、关键词分数
1.网页title中关键词的处理
2.H标签(h1-h6)中关键词的处理
3.文本内容中关键词的密度
4.外链中关键词的选择
5.域名中的关键词
二、域名权重
1.域名注册前的历史问题
2.域名注册时间的长短
3.外链网站的权重
4.外链、给出链接的相关度
5.是否使用历史、链接形式
三、外链分数
1.链接域名权重
2.是否锚文本
3.链接数量/链接权重(PR或其他参数)
4.外链网页的主题相关度
5.链接的时间
四、用户数据
1.搜索引擎结果页面(SERPs)的点击率
2.用户在网页上呆的时间
3.域名或URL搜索量
4.访问量及其他*可以监测到的数据(工具条、GA等)
五、内容质量分数
1.内容的相关度
2.内容的原创性
3.内容的独特性
4.内容的抢先性和长效性
六、人工干预
1.*投票人员干预
2.关键词人工加(扣)分
3.机器算法干预
此外须知道的是,在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先。
评论:这些是浅显的算法,真正的商业引擎像google,百度每时每刻都在进行算法研究,所以顶级的商业秘密我们是无法详细的了解的。