谷歌排名系统的核心技术源于学术领域的情报检索学。情报检索学对搜索的研究已有近 50年的历史了。它应用字符突出性的统计讯息,例如字符频率之类,来完成网页排序。情报检索学为谷歌提供了一个坚实的基础,在此基础上谷歌 应用最常访问链接、网页结构以及其他创新技术建立起了一个庞大系统。
在过去十年,搜索已经从“给我我所说的”发展到“给我我想要的”。用户对搜索的期望无疑已经提高。为了这一点,谷歌需要更好的理解网页,理解查询,理解用户。
什么是理解网页?
多年来谷歌在抓取和索引系统上投入了大量精力。因此,谷歌拥有一个非常庞大、更新及时的索引。除了规模和更新,谷歌还用其他方法改进索引。谷歌用于理解网页的核心技术之一就是理解这个网页要表达的相关的重要概念的能力,即使这个概念在网页中并没有处于明显的位置。比如,即使伦敦Sprovieri Gallery 的官方网页中没有出现London 或 Londra 的字眼,但是谷歌依然能够在搜索结果中给意大利语查询 [galleria sprovieri londra] 提供Sprovieri Gallery 的官方网页。在美国,一个用户搜索[cool tech pc vancouver,wa],将找到 www.cooltechpc.com 主页,即使这个网页没有在任何一个地方提到他们在 Vancouver,WA。谷歌 开发的另一些技术比如在网页中区分重要与次重要字符以及信息的新鲜程度。
什么是理解查询关键词?
理解谷歌的用户在寻找什么(而不仅仅是几个查询词)非常关键。在这一领域谷歌取得了几个值得注意的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。绝大多数用户已都曾经用过谷歌的拼写建议系统。当有人输入 [kofeeannan] 时谷歌便会知道他实际在搜索 Mr. Kofi Annan,系统会立即提示:Did you mean: kofi annan;但是,有人搜索 [kofee beans] 实际上就是在搜索咖啡豆。同义词是谷歌 理解查询词的基础。这也是谷歌正在为谷歌解决的最困难的问题之一。虽然有时对人们来说是很容易理解的词,但对于自动语言处理系统来讲却是尚未解决的难题。作为一个用户,我不想为我的查询中使用什么词汇考虑太多。通常我甚至不知道正确的词是什么。这就是谷歌的同义词系统发挥作用的时候。谷歌 的同义词系统可进行精密的查询修正,例如,谷歌的系统知道,单词“Dr”在查询 [Dr Zhivago] 时代表医生,但在 [Rodeo Dr] 中代表驾驶。一个用户查询 [back bumper repair] 时得到的结果是后保险杠修理。对于[Ramstein ab],谷歌会自动查询 Ramstein 空军基地;输入 [b&b ab],谷歌会搜索加拿大阿尔伯塔的住宿加早餐旅馆。谷歌已经开发了能够理解差不多100 种不同语言的这一级别的同义词查询。
什么是概念识别?
这是谷歌 应用于搜索排序系统的另一项技术。识别查询中关键概念帮助谷歌提供更相关的搜索结果。例如,在谷歌的算法能够理解在 [new yorktimes square church] 查询中,用户正在搜索时代广场上著名的教堂,而不是在纽约时报上搜索文章。谷歌不会仅仅停留在识别概念阶段;谷歌 会进一步用正确概念强化查询,比如,有人查询 [PC and its impact on people],实际上是在查询计算机对社会的影响,或是有人输入 [rainforest instructional activities forvocabulary],实际上是搜寻雨林教案。谷歌 的查询分析算法包含许多诸如此类的技术,而且,谷歌在全球范围为差不多每一种语言上提供这一服务。
什么是理解用户?
谷歌努力理解用户的意图,目的在于反馈人们真正想要的,而不仅仅是他们在查询中所说的。这项工作开始于一项全球范围的本土化系统,在这个系统中增加了谷歌 的先进的个性化技术,以及谷歌在理解用户方面取得进步的几项技术,例如整合搜索。
谷歌的明确的目标是“ 为全球用户提供相关性最强的本土搜索服务”,这反映在谷歌的本土化进程中。在不同国家输入同样的查询可能产生完全不同的搜索结果。一位用户在美国输入 [bank] 应该搜到美国的银行,而在英国的用户或许搜到银行授信额度或英国金融机构。在其他说英语的国家,比如澳大利亚、加拿大、新西兰、南非,对此查询的搜索结果应该是当地的金融机构。当人们在一些非英语国家如埃及、以色列、日本、俄国、沙特阿拉伯、瑞士输入这一查询时,事情就变得非常有趣了。同样,查询 [football] 在澳大利亚、英国、美国是指完全不同的体育项目。这些例子告诉谷歌如何正确获得一个同样的概念的本土化版本。不管怎样,同样的查询在不同国家会有完全不同的结果。举例说明,[C?te d'Or] 是法国的一个地理区——但是在邻近的讲法语的比利时,它却是一家很大的巧克力生产商的名字。个性化是谷歌的搜索系统的另一个强项,即为各个用户定制搜索结果。在搜索时已经登录以及标记了网页历史记录的用户将得到比一般的谷歌搜索更贴近意图的结果。例如,一名大量查询足球相关搜索的用户输入 [giants] 时会得到更多与足球有关的搜索结果,而其他用户可能会得到与棒球队相关的搜索结果。同样,如果你倾向于一家特定的购物网站的信息,在你搜索商品时,你会更有可能得到来自这个网站的搜索结果。谷歌 的调查显示,获得个性化搜索结果的用户会发现这些结果比非个性化搜索结果相关性更强。谷歌在整合搜索领域所做的工作也是谷歌如何解读用户意图,给予他们真正需要的结果现在谷歌 在搜索技术上的最新进展是——跨语言信息检索。它允许用户首先搜索到非本国语言的信息,然后使用谷歌翻译技术将页面翻译过来,谷歌使得这些信息很容易获得。跨语言信息检索让谷歌离谷歌的目标更近,让谷歌能够组织全球信息,真正达到信息在世界范围内的互通与可用。