欢迎光临创新互联!成都网站制作、成都域名注册、成都虚拟主机、网站空间服务商,我们将竭诚为您提供最优质的服务!QQ:646608388 TEL:18982081108
域名注册
虚拟主机
网站建设
企业邮局
网络营销
网站备案
服务器租用
百度的三种中文分词技术
- 作者:作者:王虎 文章来源:网站优化 点击数:870 更新时间:2009-1-12
- 中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。
中国IDC圈7月21日消息:中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。
搜索引擎最常用的几种分词方法有三种:
一、字符串匹配的方法;(字符串匹配的分词一般为3种:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分)
二、理解分词方法;
三、统计分词方法。
字符串匹配方法:在百度中搜索“我喜欢玩宠物连连看”而在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。这样文章标题中的长尾是在排名中非常重要的。而在百度第二页“我喜欢玩宠物连连看”用百度快照查看,很显然长尾词已经被分成“我喜欢,玩,宠物连连看”而在外后已经被分成:“我,喜欢玩,宠物,连连看”,这种匹配方法是最少切分方式。
理解分词方法:当输入的字符串中包含≤3个中文字符的话百度分词就会直接接到数据库索引词汇;而当字符串长度》4个中文字符的时候,百度中分词会会把这个词分成若干个字符。如:百度搜索“电动车”。
统计分词方法:相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。例如在百度中输入一个字符“网”而在下面百度也把“网站”标红了,这样可以看得出“网”与“站”这两个字符相邻出现的次数非常多,统计分词已经把“网站”纳入了词库。
对于百度中文分词的理解:
中文分词中强调一点:“按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配”;长尾词在文章中的间距也是决定文章排名的因素。如:“我喜欢玩宠物连连看”在百度第十三页的时候已经被分词成“我,喜欢,玩,宠物,连连,看”
全字匹配得到的词的权重会高于分开的词的权重。
根据自己的观察现在百度大部分都是使用的是正向匹配。
百度分词对于一句话分词之后,还会去掉句子中的没有意义的词语。
- 上一篇文章:百度收录突然减少的分析和解决办法
下一篇文章:百度k站恢复粗略记录
服务电话:028-86922220 13518219792 公司地址:成都市太升南路288号锦天国际A幢1002号
支持信箱:service@cdxwcx.com 版权所有:创新互联-成都网站建设网络公司 蜀ICP备13010860号
创新互联成都网络公司专业从事:成都网站设计,成都网站制作,成都网站建设,成都网页制作,成都网页设计,成都网站开发以精湛技术为核心