Google词组索引技术已获专利

分享是关怀!

成为新搜索引擎的联合创始人之前 居里,安娜·林恩·帕特森(Anna Lynn Patterson)在Google工作,致力于研究不同短语在网络页面上一起出现的频率,这些短语在一系列具有共同描述的专利申请中都有描述,不同的权利要求部分逐一列出了该描述的不同部分。

我从2006年12月29日在我的帖子中总结了其中一项专利申请的描述,内容为 基于短语的信息检索和垃圾邮件检测

该系列的专利申请之一, 使用短语在搜索结果中自动生成分类法,我没有’最初出现于2006年,今天被授予,它涵盖了以下想法:获取共享相关短语的文档,并将它们与相关短语聚类,以提供可能涵盖与搜索查询相关的类别的搜索结果。

聚类

集群是什么意思?

这个周末,我在有关全球变暖的电视节目中观看了一个很好的集群例子。

该节目使用打高尔夫球的比喻来描述尝试预测未来几天和更长时期的天气模式之间的差异。

使用不同的理论来尝试预测未来四天三天的天气,有点像试图将高尔夫球从大约十英尺远的地方推入洞中。想象一下理论的每种变化,将其预测为挥杆的天气,而将高尔夫球靠近该洞作为预测。

因为距离不是’距离太远,击中的大多数高尔夫球会非常靠近孔,并聚集在孔周围。如果您有50种不同的理论,最终可能会在洞周围紧紧地夹着50个高尔夫球。

根据不同的理论预测未来几年的天气可能更像是试图将高尔夫球击中250英尺外的洞。向该洞中击打几千个高尔夫球,它们将进一步分开。您可能会看到一种模式出现,一些球簇拥在一起,而有些簇彼此距离越来越近。

相似的高尔夫挥杆动作(或相似的理论)可能导致某些高尔夫球更紧密地聚集在一起。当高尔夫球簇彼此相距较远时,它们可能是高尔夫球挥杆(或理论)差异很大的结果。可以说这些聚类涵盖与预测天气有关的不同类别的理论。

词组和短语

基于短语的索引系统背后的主要思想之一是探索在Web上找到的文档,并查看同一文档中同一短语的出现频率。该索引系统可能会在Web上发布并标识某些短语在同一文档中倾向于同时出现的频率,并将它们标记为相关。

因此,包含短语的页面“baseball stadium”可能包括其他短语,例如“ball game,” “bleachers,” “home plate,”和其他相关短语。

一旦完成,就可以使用聚类来基于搜索查询中包括的短语以及与那些查询短语相关的短语来决定哪些页面以什么顺序显示在搜索结果中。

该专利提供了一个示例,说明如何使用聚类来确定要显示的页面以及显示这些页面的顺序。

有人搜索查询“蓝梅尔敏捷训练,”由短语组成“blue merle” and “agility training.”搜索引擎返回100个结果。可以基于可能已经由基于短语的索引系统先前识别的相关短语来创建聚类。

相关短语“blue merle” might be “Australian Shepherd,” “red merle,” “tricolor,” and “aussie”

相关短语“agility training” might be “weave poles,” “teeter,” “tunnel,” “obstacle,” and “border collie”.

在该示例中,该专利告诉我们该系统将查看包含每个相关短语的文档数量的计数。如果这句话“weave poles”出现在100个文档中的75个中,并且“teeter”出现在60个文档中,并且“red merle”出现在50个文档中,那么我们有三个聚类(或前三个聚类)。

第一个集群将被命名为“weave poles”搜索结果中会显示该集群中的一定数量的文档。第二个集群将被命名为“teeter,”并从该集群中显示选定数量的结果。第三个将被命名“red merle”并且该类别的搜索结果中将包含许多文档。

通过使用聚类,我们可以根据这些文档中相关短语出现的频率从不同聚类中获取大量文档,并且可以首先显示最受欢迎的词组,并且与这些聚类的大小成正比,或可以从每个群集向搜索者提供相同数量的文档。

这种方法的思想是为搜索者提供包含他们在分类法中搜索的查询词的结果。–基于从相关短语创建的不同聚类的结果分类。

基于短语的索引系统可以执行其他功能,例如帮助在Web上查找重复的内容以及过滤搜索结果中的垃圾邮件,但是该索引系统的那些方面仍在专利局的审查之中。

分享是关怀!

关于14条想法“Google词组索引技术已获专利”

  1. 这更有意义。如果我们查看专门用于飞行员培训的页面,那么一个好的页面将包含与不同类型的执照,不同类型的飞机培训,飞行俱乐部目录和教练等相关的内容。

    如果SE能够理解什么构成一个好的页面,而不是只有20个飞行员培训实例的页面,那么在提供相关页面方面应该大有帮助。

    与往常一样,感谢您指出此信息。

    谢谢,
    拉贾特

  2. 嗨拉贾特,

    我也喜欢这些专利申请背后的想法。它’s似乎确实具有某种常识的方法,并且应该在搜索过程中返回相关结果。如果它’s been used, I’d希望看到一些数据能有效满足搜索者的需求’ queries.

    您’再次欢迎您,并感谢您分享您对此主题的看法。

  3. 感谢打高尔夫球的类比,我更喜欢它,这很有意义… now.

    我想到目前为止,许多较大的搜索引擎已在某种程度上使用了此功能。毕竟是’是否将文字锚定到应该包含关键字的相关页面上?相关页面,相关关键字,试图返回最相关的页面。

  4. 罗伯特你好,

    很高兴您喜欢打高尔夫球–展示的节目给我留下了深刻的印象。

    专利申请说明中涵盖的基于短语的索引系统还注意锚文本中的短语,以及它们与指向的页面之间的关联程度。除了这组专利申请之外,我们还真的’从搜索引擎中看不到任何东西,例如白皮书或专利,都以这种方式使用锚文本描述了这些引擎。

  5. 嗨,Peoplefinder,

    这项技术充满了众筹元素。页面作者通过选择在页面上包含短语而建立的关联会影响搜索结果的排序和排名方式。它’这是值得考虑的方法。

  6. 罗伯特你好,

    我明白你的意思。搜索专利中的语言可以是法文,数学和样板语言的完美结合。我确实喜欢尝试阅读它们,并尝试将它们翻译成普通的英语版本。这样做的困难是试图确定有时要保留多少原始语言。

    感谢您的推特关注。 --

  7. 威廉,

    听起来不错。我必须承认我’我已经阅读了一些已申请的专利,对我来说几乎没有意义。使用的单词越小,我越容易找到它-

    oh…感谢您在Twitter上的关注。

  8. 我敢说我们需要一种算法来弄清楚他们的算法吗? --

    但话又说回来’确实是在清除对我们有意义的一些要点,然后再进行研究,然后希望我们从中学到的东西是好东西。这又使我想到了另一点,我想知道他们有多少次申请专利,而他们却无意仅仅偶尔扔下一个红色的鲱鱼?

  9. 罗伯特你好,

    红鲱鱼的想法以前已经浮现在我的脑海。 --

    搜索引擎之一可能会申请专利的原因可能有多种,尽管我怀疑其中大多数是为了保护在搜索引擎正在探索的流程开发过程中创建的知识产权而申请的,并且可能会超出预期范围。这些探索。

    不会使用Google或Yahoo或Microsoft或Ask申请的所有专利。虽然有时候’看到其中一个搜索引擎发布新程序或应用程序或启动新流程,并认识到我们’我首先在专利申请中看到了它。

    通过查看这些专利申请,我们有机会思考搜索工程师做出的一些假设,以及搜索引擎对他们面临的涉及向公众提供搜索的问题的一些观点。

评论被关闭。