原创一直是大问题,往大了说,互联网生态环境日趋恶劣,采集伪原创低质量内容泛滥,严重挤占了优质原创资源的生存空间。导致互联网资源整体质量大幅下降,网民受损、优质站长受损、搜索引擎亦受损。往小了说,很多站长一直在进行原创建设,而得不到应有的维护。如何加大对站点原创的维护以及如何衡量原创是否能满足用户需求是一个艰巨的任务。为此,百度一直在进行原创维护和展现建设,因为这是用户的需求,尽管进展缓慢,但客观看来,确实有很大的进步。那么百度是如何维护原创的?下面谈谈百度原创那点事。
本文内容主要分为以下五个大点:一、百度谈原创项目那点事;二、百度原创保护的进展;三、站长对于原创保护的错误认知;四、用户对于原创的态度;五、对于大型网站说维护原创更名副其实,对小站,说维护高质量内容更好。
一、百度谈原创项目那点事
1、搜索引擎为什么要重视原创
采集泛滥化。来自百度的一项调查显示,超越80%新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,既艰难又具有挑战性的事情。
提高搜索用户体验
数字化降低了传达本钱,工具化降低了采集本钱,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容完整不全,格式错乱或附加垃圾等问题屡见不鲜,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。
鼓励原创作者和文章
转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。临时看会影响原创者的积极性,有利于创新,有利于新的优质内容发生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。
2、采集很狡诈,识别原创很艰难
采集冒充原创,篡改关键信息。当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别进去予以适当调整的
内容生成器,制造伪原创
利用自动文章生成器等工具,独创”一篇文章,然后安一个吸引眼球的titl现在本钱也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别进去并予以打击的。
网页差别化,结构化信息提取困难
不同的站点结构化差别比拟大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易水平差异也比较大。做到既提得全,又提得准,还要最及时,当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。
3、百度识别原创之路如何走?
成立原创项目组,打持久战。面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,做好了打持久战的准备。原创识别“起源”算法。
互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。原创识别系统,百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似水平来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
目前,通过我实验以及真实线上数据,起源”算法已经取得了一定的进展,新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,坚定的走着。
原创星火计划
一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式屡见不鲜,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是原创星火计划”旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而协助百度发现算法的缺乏,不时改进,用更加智能的识别算法自动识别原创内容。
二、百度原创保护的进展
原创星火计划一期和起源算法进去都有段时间了目前主要覆盖的都是一些大型的新闻类站点,目前,原创星火计划取得了初步的效果,一期对局部重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。百度LEE也表示原创起源算法,也让这些优质的网站有了一个比较好的收益。
1原创星火计划上线前后的同期流量对比显示,原创url流量增长明显。
2原创星火计划上线后一段时间内原创url流量增长明显并逐渐趋于平稳。
这个是一个小范围的数据,来宏观的看看。2013年,中国低质网站泛滥,低质网站中采集及作弊站点泛滥两种共占比高达80%恶劣采集站占到40%之多,采集站、作弊站点、垃圾无价值站点在整个互联网资源环境中的比例越来越高,且有主导趋势,优质资源的空间在不时减小。优质站长受损,原创内容受到很大的阻碍。2014年,作弊站和采集站占比35%有所遏制,采集站下降了16%百度对于原创的宣传维护起到很大的效果,然而无价值站点越来越多,一定水平上也是原创”惹的祸,后面细说。
三、站长对于原创保护的错误认知
1、原创内容不等于高质量内容
网页主体内容是网页的价值所在百度主要从以下角度评价网页内容质量:内容制作本钱高低;内容是否有效、完整丰富;否原创;信息是否真实有效;否权威或投入较多专业的知识和经验;否存在作弊行为。对于页面的主体内容价值,原创二字并没有怎么突出。什么内容算质量高?内容质量高:内容质量好的网页,花费了较多时间和精力编辑,倾注了大量经验和专业知识,内容清晰、有效、完整且丰富。例如:专业医疗网站发布的内容丰富的医疗专题页面、资深工程师发布的完整解决某