谷歌’基于释义的索引编制,第2部分

分享是关怀!

释义发生。

人们在探索特定事件时撰写新闻,并根据自己的个人风格,专业知识或背景知识的不同水平,或试图表现出独特性,使用略有不同的词语来传达相同或相似的含义。

A

博客ger可能会涵盖特定的概念或故事,并在标题或主题相关帖子上添加自己独特的风格。

电子商务网站发布者可能会制作自己的产品描述,该产品与他人共享某些词语和想法。

信息来源,例如Wiki’可能会分享有关特定人物,地点和事物的事实 WHO, 什么, 为什么, 什么时候怎么样 输入解决常见问题的问题,例如某人的出生时间,某事件的参与者,特定过程的工作方式等。

两个不同的网页可能共享许多文本片段,这些文本片段可能略有不同,但是含义相同或彼此相关。

官方网投引擎和释义

官方网投引擎执行许多功能,一些有关释义何时传达相似想法的知识可以为他们提供帮助。

这些包括回答官方网投者’查询文档中的释义何时没有’完全使用与查询中相同的关键字,但是与该查询非常相关。

或者,当官方网投引擎尝试为要在官方网投结果中显示的页面创建文档摘要时,来自不同页面的摘要都包含针对同一主题的复述。

或者,当收集信息以用于问答或定义时,键入响应可能会出现在官方网投结果顶部的响应。

我最后的帖子 谷歌’基于释义的索引编制,第1部分,介绍了Google可能使用释义来扩展查询,回答问题的想法。&输入一个类型的问题,并可能通过使用复述来确定何时可以在多个页面上复制内容。

谷歌于本周获得了几项专利,可用于识别文档中的释义,并以有意义的方式使用这些释义。

我引用了其中一项专利以及这两项专利的作者的论文,并希望跟进一些有关官方网投引擎如何识别复述的详细信息。

使用Ngram识别释义

如果你’ve come across the 谷歌 Books Ngram Viewer, 然后你’我们已经介绍了一种可用于识别Web复述的技术。

谷歌从他们在扫描程序中扫描过的书本中提取了文字,并将其分解为ngram。一个“ngram”是一段文字“n”字长。因此,例如Google可能会启用Charles Dickens 双城记 并将其分解为一组不同长度的ngram。

那是最美好的时光,那是最糟糕的时光。那是智慧的时代,那是愚昧的时代。这是信仰的时代,是怀疑的时代;那是光明的季节,那是黑暗的季节;那是希望的春天,那是绝望的冬天。我们眼前的一切,我们眼前的一切;我们都直接去天堂,我们都走了另一条路。

这是一些ngram,距离该文本6个字长:

  • 那是最好的时光
  • 那是最美好的时光
  • 最好的时候,那是
  • 最好的时候,那是
  • 有时是最糟糕的
  • 时代,那是最糟糕的
  • 那是最糟糕的时刻

文本也可以分为更长或更短的ngram。

将Ngram分成几部分

在关于基于释义的索引编制的第一篇文章中,我列举了几个可能被视为释义的句子片段的示例。他们是

  • 苏军撤出阿富汗
  • 苏军撤离阿富汗

通过从这些文档中提取ngram的过程,将这两个短语从一组Web文档中拉出。识别出ngram后,它们可以分为三部分。

其中的第一个是开始常量部分,其中包含与ngram开头相似的多个单词。

第二部分可能是相似单词的结尾数,而中间部分则包含其他两个单词之间的单词。

第一部分和第二部分(开始和结尾)被视为ngram的锚点。因此,在上面的表述中,“soviet troops”是开始的恒定部分,并且“Afganistan”是结束常数部分,它们共同构成了这些ngram的锚点。请注意,它们是不同长度的ngram。

如果多于一个ngram的锚点相同,则可以认为这ngram是潜在的复述对。

在确定一对ngram是否可能是释义时,此过程可以遵循许多其他规则。

例如,专利中描述的一种可能的规则是:

…可能会评估一组文档中长度在7到10个单词之间的所有可能的ngram,其中ngram的开始和结束常数部分每个长度为3个单词,因此在开始和结束常数部分之间的中间部分在一四个字的长度。

Ngrams作为句子

如果ngram是句子,则在决定这些句子是否可能是释义对时的其他一些限制可能包括:

  1. 句子中的所有单词必须少于30个字母
  2. 一个句子必须包含至少一个既不是动名词也不是情态动词的动词
  3. 一句话必须至少包含一个不是动词且不大写的单词;要么
  4. 句子中少于一半的单词可能是数字

The other 谷歌 patent granted on paraphrases this week is:

释义获取
由Alexandru Marius Pasca和Peter Szabolcs Dienes发明
Assigned to 谷歌
美国专利7,937,265
2011年5月3日授予
归档:2005年9月27日

抽象

包括系统和计算机程序产品的方法和装置,用于从文本输入中获取潜在的复述。

在一个方面,接收文本输入,生成第一图,其中第一图的键是在文本输入中标识的ngram,并且与第一图的键相关联的值是唯一标识符,第二图是生成,其中第二地图的关键字是从ngram标识的锚,并且与第二地图的关键字相关联的值是一个或多个与锚相关的中间部分,并且生成第三地图,其中第二地图的关键字第三图是从中间部分识别的潜在复述对,并且与第三图的关键字相关联的值是与潜在复述对相关联的一个或多个唯一锚。

I’我们已经提供了一种可以用来识别复述的方法的相当简单的描述,但是该专利包含了有关如何识别复述的更多详细信息,包括使用在日期或命名实体之前可能被识别为复述的句子或句子片段。

例如,上述苏联部队撤离发生在1989年, ’在网页上看到类似以下内容的情况并不少见:

  • 1989年– 苏军撤出阿富汗
  • 1989年–苏军撤离阿富汗

在页面上使用日期来表示类似这样的特定事件可能会增强该日期之后的片段为释义的可能性。

同样,使用 命名实体状语从句 在页面上,命名特定的人或地点或事物也可能有助于识别可能在网络上具有释义的ngram。这里’从专利中可以看出这是如何工作的:

例如,句子“Together they form the 普拉特河, which eventually flows 进入海湾 of 墨西哥 在路易斯安那州最南端”具有三个命名元素:“Platte River”, “Mexico”, 和 “Louisiana”。可以从这句话中提取的ngram之一是“最终河 flows 进入海湾”.

如果起始常量部分的长度为三个单词,而终止常量部分的长度为三个单词,则此ngram的锚点(不考虑任何命名实体)为“最终流入海湾的河”; “最终河”是开始的常数部分,并且“into the Gulf”是结束常数部分。

如果将末尾常量部分之后的命名实体添加到该ngram的锚点,则该ngram的锚点为“最终流入墨西哥湾的河”。如果将修饰命名实体的状语从句的其余部分也添加到该ngram的锚点,则该锚点为“最终流入墨西哥湾的河 在路易斯安那州最南端”,因为修饰命名实体的状语从句是“在路易斯安那州最南端”.

该专利还提出了一种使用ngram来识别复述的替代方法,值得深入研究。

More Paraphrase Approaches from 谷歌

虽然我的专利’在最初由2005年提交的有关释义的两部分文章中,Google一直在研究如何识别释义。

A 2008 谷歌 whitepaper, 大规模获取用于学习表面图案的复述 (pdf)着重于使用种子模式来识别复述。例如:

对于“出生地”关系,我们从两种种子模式开始:

  1. “(PERSON)出生于(LOCATION)”
  2. “(PERSON)出生于(LOCATION)”

In 谷歌’的专利申请, 机器翻译查询扩展,统计语言模型(基于ngram的使用)也可能有助于识别释义。

A 2008 blog post at 谷歌’的公共政策博客, 使加泰罗尼亚,爱沙尼亚和其他地方的官方网投更好,告诉我们语言模型如何用于识别同义词和扩展查询。的 机器翻译 一项专利声明指出,这种方法也可以用于释义:

5.根据权利要求1所述的方法,还包括:

  • 用第一自然语言识别第一短语;
  • 通过将第一短语翻译成第二自然语言以第二自然语言生成第二短语;
  • 通过将第二短语翻译回第一自然语言来识别第一短语的释义;和
  • 使用第一个短语作为源语言并使用复述作为相应的目标语言,为统计机器翻译构建翻译模型。

换句话说,句子片段像“苏军撤出阿富汗”可能会从英语翻译成法语,然后再翻译成英语。

而且该翻译可能有多个合理的版本回英文,例如“苏军从阿富汗撤军,” or “苏联从阿富汗撤军,” or “苏军从阿富汗撤军,” or “苏联部队离开阿富汗。”

Just as 谷歌 started including 同义词 在官方网投结果中,’释义可能会从官方网投引擎中得到类似的处理。

复述发生了,如果官方网投引擎可以识别何时何地,它可以通过提供更广泛的相关官方网投结果,更广泛的答案以及可能更少的重复官方网投内容来改善官方网投体验。

分享是关怀!

关于13条想法“Google’基于释义的索引编制,第2部分”

  1. pingback:»Pandia官方网投引擎营销新闻总结
  2. 关于Google背后的专利的有趣报道’索引释义的方法。尽管我不得不说,尽管识别重复内容的用途很明显,但这些特定专利似乎更侧重于包含而不是排除内容。

    无论如何,对于Google和语义官方网投而言,这似乎都是向前迈出的一大步。

  3. 我不;t always like google patents but this is one of them which i have thought they needed for a long time. The panda update means people will have be be original but that would be hard to do if google wasn’要了解您的意思,这应该可以解决该问题。

  4. 嗨,阿什,

    我怀疑像白皮书中所述的过程 有效地检测文本段的来源 在确定Web上的页面可能如何聚集在一起以及可以选择要显示在特定主题的官方网投结果或新闻结果中的文档中起更大的作用。

    文档所引用的Web上复制内容的分类之一是“Semantic duplication”我们被告知的是页面包含(几乎)相同内容,但单词不同的地方。

    复述识别算法可能在定义如何将文档聚在一起的过程中起作用,但是它们并不是’官方网投引擎如何确定一个以上的文档在语义上是否可能是另一个文档的副本的唯一方面。

  5. 嗨Alex J,

    基于大量官方网投,我’ve conducted where I’ve seen the terms I’我正在官方网投显示在页面中的评论中’在官方网投结果中,Google似乎确实将评论内容编入索引。

    根据阅读 谷歌’页面分割专利,’Google可能会在其索引中跟踪这些单词出现在页面的注释中,而可能没有赋予它们相关的权重,就好像它们出现在页面的主要内容中一样。

  6. 大家好,

    谢谢。好点子。专利的重点主要在于Google如何识别网络上不同文档中的相变。真的没有’不要过多介绍官方网投引擎可能如何使用它来扩展查询或扩展Q&一个答案,或者可能从官方网投结果中排除某些页面,因为这些页面是语义重复项(尽管使用了一些不同的单词,但实际上说的是同一件事)。

  7. 嗨,泰莎,

    将文本分解为ngram的目的是使官方网投引擎能够研究这些文本片段,在其中找到模式,并将它们相互比较。这些类型的模式有助于了解人们如何书写和使用语言,并有助于官方网投引擎构建有关语言使用的模型。

    这些模型可用于帮助识别同义词和释义,检测文档中使用的是哪种语言,了解特定语言的不同语法规则等等。

  8. 嗨,克雷格,

    我不’总是喜欢我所看到的某些专利,但是查看它们可能是查看官方网投引擎可能正在研究的事物的类型,它们如何尝试解决不同问题以及它们可能是什么假设的一种有用方法。关于官方网投和官方网投者以及网络。

    我不’认为能够更好地理解释义何时出现在不同文档上是检测原始内容的总答案,但这似乎是走这条路的好一步。

  9. Pingback:Google Noticias–2011年5月| Ayuda-Buscadores
  10. Pingback:文章营销发布熊猫后内容旋转Avanzato? |禅宗

评论被关闭。