互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎肯定不想出现给用户的搜索结果都是相同的内容。抓取这些重复的网页,一定水平上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题。
一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在“去重”方法在整个搜索引擎架构中实施得越早,越可以节约后续处置系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处置,比方,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。
去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前)搜索引擎会在页面已经分出的关键词中,提取局部具有代表性的关键词,然后计算这些关键词的指纹”每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。
实际工作中的搜索引擎,不只仅使用分词方法所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割的方式提取关键词,并进行指纹计算,连切割就是以单个字向后移动的方式进行切割就是单个字向后移动的方式进行切词,比方,百度开始打击买卖链接”会被切成“百度开”度开始”开始打”始打击”打击买”击买卖”买卖链”卖链接”然后从这些词中提取局部关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。
因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引规范,这样使得局部作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重复级的打击。所以SEO面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果网站权重没有大问题,都会得到健康的发展。
另外,不只仅是搜索引擎需要“网页去重”自己做网站也需要对站内页面进行去重。比方分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必定会有大量的重复,这样不只在SEO方面表示不好,站内用户体验也会降低很多。有如SEO人员在设计流量产品罕见的一般为以“聚合”为基础的索引页、专题页或目录页,聚合”就必需有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。
去重”算法的大概原理一般就是如上所述,有兴趣的朋友可以了解一下I-MatchShinglSimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的噪声”对去重结果多少会有影响,做这部分工作时只对内容局部操作就可以了相对来说会简单很多,并且可以很有效地辅助产出高质量的SEO产品”作为SEO人员只要了解实现原理就可以了具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比方对核心词的分词环节)SEO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了技术人员并不是万能的也有不熟悉、不擅长的领域,特定时刻也需要他人提供思路)如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会修改标题、改链接、改文字之类‘无聊’需求”。