精选摘要答案得分排名信号

分享是关怀!

计算特色片段答案分数

本周的一项专利更新告诉我们Google如何为精选摘要答案打分。

当搜索引擎响应于查询对搜索结果进行排名时,它可以使用依赖于查询的排名信号和独立于查询的排名信号的组合来确定那些排名。

依赖于查询的信号可以取决于查询中的术语,并且搜索结果与该查询术语的相关性如何。与查询无关的信号将取决于查询中除术语之外的其他内容,例如指向结果的链接的质量和数量。

可以基于与查询相关的信号和与查询无关的信号的组合来对查询中的问题的答案进行排名,这可以确定特征代码段答案得分。有关文本答案段落的最新专利告诉我们有关如何将它们组合在一起以生成特征代码段答案分数的方法,以从查询中出现的问题的答案中进行选择。

一年半以前,我在帖子中写了有关精选片段的答案 Google是否使用架构为精选片段编写答案段落?。该帖子所涉及的专利是 候选答案段落,其最初于2015年8月12日提交,并于2019年1月15日被授予延续专利。

该专利是原始专利的续传专利,该专利是关于答案段落的,通过告诉我们Google将寻找具有结构化数据(包括相关事实)的问题的文本答案,从而对其进行了更新。这可能像是数据表,甚至可能是架构标记。这意味着Google可以为问题提供基于文本的答案,并包含该答案的许多相关事实。

该专利的第一个版本的另一个续订版本是在本周授予的。它提供了更多信息,并提供了一种不同的方法来对特色片段的答案进行排名,并且有必要将这两个版本的专利中的权利要求进行比较,以了解它们与Google有何不同。

精选摘录答案分数专利的新版本位于:

对候选人的答案段落进行评分
发明人:史蒂芬·贝克(Steven D. Baker),斯里尼瓦桑·文卡塔卡里(Srinivasan Venkatachary),罗伯特·安德鲁·布伦南(Robert Andrew Brennan),佩尔·比约恩森(Per Bjornsson),刘毅,哈达尔·谢姆托夫(Hadar Shemtov),马西米利亚诺·西亚拉米塔(Massimiliano Ciaramita)和伊奥尼斯·索桑塔里迪斯(Ioannis Tsochantaridis)
受让人:Google LLC
美国专利:10,783,156
授予:2020年9月22日
提交日期:2018年2月22日

抽象

方法,系统和装置,包括在计算机存储介质上编码的计算机程序,用于对候选答案段落进行评分。在一个方面,一种方法包括:接收被确定为是寻求查询答复的问题查询的查询以及标识被确定为对该查询做出响应的资源的数据;对于资源的子集:接收候选答案段落;为每个候选答案段落确定查询词匹配分数,该分数是查询词与候选答案段落相似度的量度;对于每个候选答案段落,确定答案词语匹配分数,该分数是答案词语与候选答案段落相似度的量度;对于每个候选答案段落,基于查询词匹配分数和答案词匹配分数确定查询依赖分数;并生成基于查询相关分数的答案分数。

精选摘要答案分数

候选答案段落声明已更新

专利的变更要求基于对查询的潜在答案的依赖于查询的分数和与查询无关的分数,对潜在答案进行更多分析。专利说明确实提供了有关查询相关和查询独立分数的详细信息。来自第一项专利的第一项索赔涵盖了查询的依分数而得的答案,但没有像最新版本那样查询独立的分数。它在其余的权利要求中提供了有关查询相关分数和查询独立分数的更多详细信息,但是较新的版本似乎使查询相关分数和查询独立分数都变得更加重要。

2015年版本的第一个声明 计分答案 专利告诉我们:

1.一种由数据处理装置执行的方法,所述方法包括:接收被确定为寻求答案响应的问题查询的查询和标识被确定为对所述查询作出响应并根据排名进行排序的资源的数据,所述查询具有查询条款对于资源中排名最高的子集中的每个资源:接收候选答案段落,每个候选答案段落均从资源的内容中从段落单位中选择,并有资格作为答案段落提供搜索结果,以标识确定为响应查询并与搜索结果分开并与众不同;为每个候选答案段落确定查询词匹配分数,该分数是查询词与候选答案段落相似度的量度;对于每个候选答案段落,确定答案词语匹配分数,该分数是答案词语与候选答案段落相似度的量度; determining, for each candidate answer passage, a 查询相关score based on the query term match score and the answer term match score; and generating an answer score that is 基于查询相关分数的候选答案段落答案响应的答案质量度量 .

其余权利要求向我们介绍了与查询有关的和与查询无关的分数,但是,较新版本的专利所提出的索赔似乎对与查询有关的和与查询无关的分数同样重要。那使我确信,我应该在帖子中重新审阅此专利,并描述Google如何根据与查询相关和与查询无关的分数来计算答案分数。

新专利的第一个要求告诉我们:

1.一种由数据处理装置执行的方法,所述方法包括:接收被确定为寻求答案响应的问题查询的查询和标识被确定为对所述查询作出响应并根据排名进行排序的资源的数据,所述查询具有查询条款对于资源中排名最高的子集中的每个资源:接收候选答案段落,每个候选答案段落均从资源的内容中从段落单位中选择,并有资格作为答案段落提供搜索结果,以标识确定为响应查询并与搜索结果分开并与众不同; 对于每个候选答案段落,确定与查询相关的分数,该分数与查询词语与候选答案段落的词语的匹配次数的实例成比例;对于每个候选答案段落,为该候选答案段落确定查询独立分数,其中该查询独立分数独立于查询和查询依赖分数,并且基于候选答案段落的特征;并基于所述查询相关分数和所述查询独立分数生成答案分数,所述分数是针对所述候选答案段落的答案响应的答案质量的度量。

正如它在新声明中所说的那样,答案分数已经从“基于查询相关分数的候选答案段落答案响应的答案质量度量 ”(从第一项专利)到“基于查询相关分数的候选答案段落答案响应的答案质量度量 和查询独立分数”(摘自该专利的较新版本。)

该图来自该专利的两个版本,但是它显示了与查询相关的分数和与查询无关的分数在计算特征代码段答案分数中都起着重要的作用:

查询相关&查询独立答案结合

查询相关片段和独立查询片段的特色片段分数

两种版本的专利都告诉我们如何计算与查询相关的分数和与查询无关的分数。专利的第一个版本仅在其主张中告诉我们答案分数使用了查询相关分数,而这个较新的版本告诉我们,查询相关分数和查询独立分数都被组合起来以计算答案分数(以确定哪个答案是查询答案的最佳选择。)

在该专利讨论如何使用“查询相关”和“查询独立”信号来创建答案分数之前,它确实告诉我们有关答案分数的信息:

答案段落评分器从答案段落生成器接收候选答案段落,并通过组合计分信号来对每个段落进行评分,这些评分信号预测段落将回答问题的可能性。

在一些实施方式中,答案段落评分器包括分别生成依赖于查询的分数和依赖于查询的分数的依赖于查询的分数和依赖于查询的分数。在一些实施方式中,查询依赖评分器基于答案词匹配分数和查询词匹配分数来生成查询依赖分数。

查询相关片段评分的相关评分

答案段落的查询相关评分基于答案词特征。

答案词匹配分数是答案词与候选答案段落中的词相似度的量度。

寻求答案的查询并未描述搜索者正在寻找的内容,因为搜索时搜索者并不知道答案。

与查询相关的评分器通过找到一组可能的答案词开始,并将该组可能的答案词与候选答案段落进行比较以生成答案词匹配分数。这组可能的答案词可能是从查询返回的前N个排序结果中选取的。

该过程根据查询结果中排名最高的子集中包含的术语创建术语列表。该专利告诉我们,每个结果都会被解析,并且每个术语都包含在术语向量中。术语向量中可以省略停用词。

对于术语列表中的每个术语,可以为该术语生成术语权重。每个术语的术语权重可以基于结果的最高子集中的许多结果,其中该术语出现与该术语的文档反向频率(IDF)值相乘。 IDF值可以从大量文档集中得出,并提供给依赖查询的评分器。或者,IDF可以从返回结果中的前N个文档中得出。该专利告诉我们,也可以使用其他适当的术语加权技术。

候选答案段落中每个术语的计分过程决定了该术语在候选答案段落中出现的次数。所以,如果这个词“apogee”在候选答案段落中出现两次,“apogee”对于该候选答案段落,其值为2。但是,如果同一术语在另一候选答案段落中出现了三次,则“apogee”因为不同的候选答案是3。

对于候选答案段落的每个术语,计分过程将其术语权重乘以该术语在答案段落中出现的次数。因此,假设术语权重为“apogee”是0.04。对于第一个候选答案,该值基于“apogee”是0.08(0.08 x 2);对于第二个候选答案段落,该值基于“apogee”是0.12(0.04×3)。

其他答案词特征也可以用于确定答案词得分。例如,查询相关评分器可以确定针对问题查询的答案响应的实体类型。可以通过识别用于标识诸如人,地点或事物之类的实体的术语并选择具有最高术语得分的术语来确定实体类型。实体时间也可以从查询中识别出来(例如,对于查询[谁是最快的人]),答案的实体类型为“man.”对于每个候选答案段落,查询相关记分员然后识别候选答案段落中描述的实体。如果实体不包括与所标识实体类型的匹配项,则候选答案段落的答案词匹配分数会降低。

Assume the following candidate passage answer is provided for scoring in response to the query [who is the fastest man]: Olympic 短跑运动员s have often set world records for sprinting events during the Olympics. The most popular sprinting event is the 100-meter dash.

与查询相关的评分器将识别几个实体–奥运会,短跑选手等–但它们都不是那种类型“man.” The term “sprinter”不分性别。因此,答案词分数将降低。该分数可以是二进制分数,例如,对于存在实体类型的术语,为1,对于不存在正确类型的术语,为0;备选地,可以是可能性,其是正确术语在候选答案段落中的可能性的度量。可以使用适当的评分技术来生成分数。

查询独立评分以获取摘要的得分

根据查询独立功能对答案段落进行评分。

可以响应于查询而从针对搜索而识别出的前N个排名最高的资源中生成候选答案段落。 N可以与搜索结果首页上返回的搜索结果数相同。

计分过程可以使用通过单元位置分数。该通过单元位置可以是候选答案通过来自的结果的位置。位置越高,得分越高。

The scoring process may use a 语言模型分数. The 语言模型分数 generates a score based on candidate answer passages conforming to a language model.

一种语言模型基于句子和语法结构。这可能意味着带有部分句子的候选答案段落可能比带有完整句子的候选答案段落得分更低。该专利还告诉我们,如果候选答案段落中包含结构化内容,则该结构化内容将不受语言模型评分的限制。例如,表中的一行可能具有非常低的语言模型得分,但可能非常有用。

可以使用的另一种语言模型考虑来自候选答案段落的文本是否总体上看起来类似于答案文本。

与查询无关的评分者访问历史答案段落的语言模型,其中历史答案段落是已为所有查询服务的答案段落。已送达的答案段落通常具有类似的n-gram结构,因为答案段落往往包含解释性陈述和陈述性陈述。与查询无关的分数可以使用三字母组模型来比较候选答案段落的三字母组和历史答案段落的三字母组。与较低质量的候选答案段落相比,质量较高的候选答案段落通常与历史答案段落具有更多的三字母匹配。

Another step involves a section 边界得分. A candidate answer passage could be penalized if it includes text that passes formatting boundaries, such as paragraphs and section breaks, for example.

计分过程确定疑问分数。与查询无关的评分器在候选答案段落中搜索疑问词。可能的答案段落,其中包含一个问题或疑问词,例如“月球离地球有多远?”通常,它对搜索答案的搜索者的帮助不如仅包含陈述性陈述的候选答案段落(例如,“月亮距离地球大约238,900英里。”

计分过程还确定话语边界项位置分数。话语边界术语是引入与刚刚作出的陈述或想法相反的陈述或修改的陈述或观念。例如,“conversely,” “however,” “on the other hand,” and so on.

A candidate answer passage beginning with such a term receives a relatively low 话语边界词 position score, which lowers the answer score.

A candidate answer passage that includes but does not begin with such a term receives a higher 话语边界词 position score than it would if it began with the term.

A candidate answer passage that does not include such a term receives a high 话语边界词 position score.

计分过程为创建候选答案段落的结果确定结果分数。这些可以包括排名得分,声誉得分和站点质量得分。这些分数越高,答案分数就越高。

排名分数基于创建候选答案段落的结果的排名分数。它可以是查询结果的搜索分数,并将应用于该结果的所有候选答案段落。

结果的信誉分数表示资源的主题很好地服务于查询的可信度和/或可能性。

网站质量得分表示网站质量的度量标准,该网站承载从中创建候选答案段落的结果。

上面描述的与组件查询无关的分数可以几种方式组合以确定查询无关分数。它们可以相加;相乘或以其他方式组合。

新增2020年10月15日–如果您对Google如何在网页上找到问题和答案感兴趣,并对得分得分进行评分,以确定要显示哪些特征,我还写了一些其他的关于答案段落的文章,值得阅读片段。这些是这些帖子:

分享是关怀!

关于21条想法“精选摘要答案得分排名信号”

  1. 法案,
    作为所有seo的狂热消费者,我开始做每只手表,或者阅读一杯大杯冰咖啡,以遮盖住标题标签和反向链接,然后在我的鼻子上打哈欠。

    I just found your website/blog today. 您 are the rare hybrid of smooth wordsmith and Yoda nerd. I am intrigued. Following you on FB.

  2. 你好比尔,

    尽管下周我将召开重要会议并遇到一些健康问题,但我还是在40分钟内完成了整篇文章。我常常无法抗拒阅读您的文章的乐趣。

    我总是告诉我的作者使用“客观,简单的句子,其中包含实体,并且很容易被NLP处理。”

    那’s why it wasn’我很难理解该专利,但仍要详细阅读所有内容,并且创造性的解释很棒。

    我只是想知道这些条款“boundary score”, “话语边界词”, “language model score”, “section 边界得分”来自专利?谷歌在其他专利中使用这些术语吗?

    因为这些术语使我更容易理解上下文,并且如果它们是官方的,我也可以使用这些术语。

  3. 优秀的分析比尔。

    您认为这些专利中的任何一项都已融入Chrome吗?

    好像他们’一直在突出显示浏览器中的答案段落方面进行了一些测试。

发表评论

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.