根据上下文调整摘要代码段答案

分享是关怀!

如何确定摘要的特色答案?

我最近写过 精选摘要答案得分排名信号。在那篇文章中,我描述了Google如何使用依赖于查询和独立于查询的排名信号来为看起来像他们想要答案的查询创建答案分数。

史蒂文·贝克(Steven Baker)是该专利的发明人之一。我查看了他所写的其他专利,并注意到其中的一项专利是关于上下文的,这是与查询无关的答案排名信号的一部分。

回忆起有关问题解答和上下文的专利,我觉得值得回顾一下专利并撰写有关内容。

该专利涉及处理需要文本答案的问题查询以及如何确定这些答案。

这是一项复杂的专利,其背后的描述似乎有点模糊,但是我写了专利何时发生的文章,我认为其他细节为Google如何为精选片段打分提供了很多见识。答案。在这篇文章之后,我还将跟进另外一项相关专利,我也将从这里链接到它。

This patent starts 通过 telling us that a search system can identify 资源s in response to queries submitted 通过 users and provide information about the 资源s in a manner that is useful to the users.

精选摘要答案的上下文评分调整如何工作

Users of search systems are often searching for an answer to a specific question, rather than a listing of 资源s, like in this drawing from the patent, showing 精选摘要答案:

精选摘要答案

例如,用户可能想知道特定位置的天气,股票的当前报价,州的首都等。

当收到问题形式的查询时,一些搜索引擎可能会响应于查询的问题格式执行专门的搜索操作。

例如,某些搜索引擎可能会以““answer,”例如以“one box”一个问题,通常是摘要的特色。

一些问题查询最好通过解释性答案来解决,这也称为“long answers” or “answer passages.”

例如,对于问题查询[为什么是天蓝色],将光解释为波浪的答案会很有帮助。

精选摘要答案-为什么天蓝色

Such answer passages can be selected from 资源s that include text, such as paragraphs, that are relevant to the question and the answer.

对文本部分进行评分,并选择得分最高的部分作为答案。

总的来说,该专利告诉我们有关以下过程的内容的一个方面:

  • 接收查询,即查询答案的问题查询
  • Receiving candidate answer passages, each passage made of text selected from a text section subordinate to a heading on a 资源, with a corresponding answer score
  • 确定页面上标题的层次结构,并在父子关系中分层排列两个或多个标题级别,其中每个标题级别都有一个或多个标题,相应标题的子标题是父子关系中的孩子标题,并且相应的标题是该关系中的父标题,并且标题层次结构包括与根标题相对应的根级别(针对每个候选答案段落)
  • 确定描述从根标题到候选答案段落所属的各个标题的标题层次中路径的标题向量,至少部分地基于标题向量确定上下文分数,并调整答案分数候选答案段落至少部分地由上下文得分构成调整后的答案得分
  • 根据调整后的答案分数从候选答案段落中选择答案段落

该方法在专利中的优势

  1. 可以部分地基于表示与问题相关的答案的上下文信号来选择长查询答案
  2. 上下文信号可以部分地独立于查询(即,与它们与查询项的相关性无关地进行评分)
  3. 评分过程的这一部分考虑了文档的上下文(“resource”)(答案文本位于其中),说明在依赖查询的评分过程中可能没有考虑到的相关性信号
  4. 按照这种方法,较长的答案更可能使搜索者满意’的信息需求更有可能作为答案出现

可以在以下位置找到此专利:

答案段落的上下文评分调整
发明人:Nitin Gupta,Srinivasan Venkatachary,Lingkun Chu和Steven D. Baker
美国专利:9,959,315
授予:2018年5月1日
应用编号:14 / 169,960
提交日期:2014年1月31日

抽象

方法,系统和装置,包括编码在计算机存储介质上的计算机程序,用于候选答案段落的上下文评分调整。

在一个方面,一种方法包括对候选答案段落进行评分。对于每个候选答案段落,系统确定一个标题向量,该标题向量描述了标题层次结构中从根标题到候选答案段落所属的各个标题的路径;至少部分地基于航向矢量来确定上下文得分;并至少部分地根据上下文分数来调整候选答案段落的答案分数,以形成调整后的答案分数。

然后,系统根据调整后的答案分数从候选答案段落中选择答案段落。

使用上下文分数调整特色片段的答案分数

该专利的附图显示了不同的层次标题,可用于确定答案段落的上下文,这些段落可用于调整特色片段的答案分数:

精选摘要的层次结构标题

我将在下面讨论这些标题及其层次结构。请注意,标题包括页面标题作为标题(关于月球),以及页面标题元素内的标题。这些标题为这些答案提供了上下文。

该上下文评分过程始于接收候选答案段落和每个段落的分数。

将那些候选答案段落及其各自的分数提供给搜索引擎,该搜索引擎接收确定为问题的查询。

Each of those candidate answer passages is text selected from a text section under a particular heading from a specific 资源 (page) that has a certain answer score.

For each 资源 where a candidate answer passage has been selected, a context scoring process determines a heading hierarchy in the 资源.

A heading is text or other data corresponding to a particular passage in the 资源.

例如,标题可以是文本,它概括了紧跟标题之后的一段文本(标题描述了紧随其后的文本或包含在其中的内容。)

标题可以例如通过特定的格式数据来指示,例如使用HTML的标题元素。

专利的下一部分使我想起了一个观察结果,即Mobile Moxie的Cindy Krum关于页面上的命名锚点,以及Google如何索引这些锚点来回答问题,引出答案或特色片段。她写了关于 脆弱是什么?

标题也可以是内部链接(在同一页面内)的锚文本,该链接链接到页面上某个其他位置的锚和相应文本。

标题层次结构可以具有两个或多个标题级别,这些级别以父子关系分层排列。

The first level, or the root heading, could be the title of the 资源.

每个标题级别可以具有一个或多个标题,并且在亲子关系中,相应标题的子标题是子标题,并且相应标题是父标题。

对于每个候选段落,上下文评分过程可以至少部分地基于根标题和候选答案段落所属的各个标题之间的关系来确定上下文分数。

上下文计分过程可以用于确定上下文分数,并确定用于描述从根标题到相应标题的标题层次中的路径的标题向量。

上下文得分可以至少部分地基于航向矢量。

上下文计分过程然后可以至少部分地通过上下文分数来调整候选答案段落的答案分数,以形成调整后的答案分数。

然后,情境评分过程可以基于调整后的答案分数从候选答案段落中选择答案段落。

该专利的流程图显示了上下文评分调整过程:

上下文评分调整流程图

识别问题查询和答案段落

I’撰写了有关理解答案段落背景的文章。该专利为我们提供了有关问题查询和答案段落的更多信息,值得详细介绍。

一些查询采用问题或隐式问题的形式。

例如,查询[地球到月球的距离]是隐式问题的形式“地球到月球的距离是多少?”

一个隐含的问题-地球到月球的距离

同样,问题可能很具体,如查询[月亮有多远]。

搜索引擎包括查询问题处理器,该查询问题处理器使用确定查询是查询问题(隐式还是特定)以及是否存在响应该问题的答案的过程。

查询问题处理器可以使用几种不同的算法来确定查询是否是问题以及是否有响应于该问题的特定答案。

例如,它可以用于确定问题的查询和答案:

  • 语言模型
  • 机器学习的过程
  • 知识图
  • 文法
  • 这些的组合

除了或代替答案事实,查询问题处理器可以选择候选答案段落。例如,对于查询[月亮有多远],答案事实是238,900英里。搜索引擎可能只是显示事实信息,因为那是地球到月球的平均距离。

但是,查询问题处理器可以选择标识与问题查询非常相关的段落。

These passages are called candidate 回答段落。

对答案段落进行评分,并根据这些分数选择一个段落,并根据查询提供该段落。

可以对答案段落进行评分,并且可以基于上下文来调整该得分,这是该专利背后的重点。

Google经常会识别出几条可以用作精选摘要答案的候选答案。

Google可能会查看这些答案来自的页面上的信息,以更好地理解答案的上下文,例如页面的标题以及在其中找到答案的内容的标题。

特色片段答案的上下文评分调整

查询问题处理器向上下文评分处理器发送一些候选答案段落,有关每个答案段落所来自的资源的信息以及每个特征代码段答案的分数。

候选答案的分数可以基于以下考虑因素:

  • 将查询字词与候选答案段落的文本匹配
  • 使答案词与候选答案段落的文本匹配
  • The quality of the underlying 资源 from which the candidate answer passage was selected

我最近写过 精选摘要答案分数以及如何将查询相关和查询独立评分信号的组合用于生成答案段落的答案分数。

该专利告诉我们,在对候选答案进行评分时,查询问题处理器还可以考虑其他因素。

Candidate answer passages can be selected from the text of a particular section of the 资源. And the query question processor could choose more than one candidate answer passage from a text section.

以下是来自同一页面的不同答案段落的以下示例

(这些示例答案段落在文章的其余部分中的某些地方都有提及。)

  • (1)月球绕地球公转距离大约需要27天(27天,7小时,43分钟和11.6秒)
  • (2)距离为什么会变化?月亮’s distance from Earth varies because the moon travels in a slightly elliptical orbit. 因此,月亮’距地球的距离从225,700英里到252,000英里
  • (3)月亮’s distance from Earth varies because the moon travels in a slightly elliptical orbit. 因此,月亮’距地球的距离从225,700英里到252,000英里

这些答案中的每一个对于Google来说都是很好的答案。我们被告知:

More than three candidate answers can be selected from the 资源, and more than one 资源 can be processed for candidate answers.

Google如何在这三个可能的答案之间进行选择?

Google可能会根据句子的数量和最多选择的字符数来决定。

该专利告诉我们如何在这些答案之间进行选择:

每个候选答案都有一个对应的分数。对于此示例,假设候选答案段落(2)得分最高,其次是候选答案段落(3),然后是候选答案段落(1)。因此,在没有上下文评分处理器的情况下,将在图3的答案框中提供候选答案段落(2)。 2.但是,上下文评分处理器考虑了答案段落的上下文,并调整了查询​​问题处理器提供的分数。

因此,我们看到可以根据功能性摘要答案得分选择的内容,可以根据该答案出现在页面上的上下文进行调整。

内容相关评分功能简介

该过程开始于确定为查询应答问题的问题查询的查询。

This process next receives candidate answer passages, each candidate answer passage chosen from the text of a 资源.

Each of the candidate answer passages are text chosen from a text section that is subordinate to a respective heading (under a heading) in the 资源 and has a corresponding answer score.

例如,查询问题处理器将候选答案段落及其对应的分数提供给上下文评分处理器。

确定上下文的标题层次结构

This process then determines a heading hierarchy from the 资源.

标题层次结构将具有按父子关系分层排列的两个或多个标题级别(例如页面标题和HTML标题元素)。

每个标题级别都有一个或多个标题。

相应标题的子标题是父子关系中的子标题((h2)标题可能是(标题)的子标题),相应标题是关系中的父标题。

标题层次结构包括与根标题相对应的根级别。

上下文评分处理器可以处理DOM树中的标题标签,以确定标题层次。

特色片段的层次标题

For example, concerning the drawing about the 到月球的距离 just above, the heading hierarchy for the 资源 may be:

ROOT标题(标题)是:About The Moon(310)

页面上的主要标题(H1)

H1:月亮’s Orbit (330)

页面上的辅助标题(h2):

H2: 月球绕地球运行需要多长时间? (334)

页面上的另一个辅助标题(h2)是:

H2:从地球到月球的距离(338)

页面上的另一个主标题(h1)

H1:月亮 (360)

页面上的另一个辅助标题(h2):

H2:月球时代(364)

页面上的另一个辅助标题(h2):

H2:月球上的生命(368)

专利是如何描述此标题层次结构的:

在此标题层次结构中,标题是根级别的根标题。标题330和360是标题的子标题,并且在根目录之下的第一层;标题334和338是标题330的子标题,并且处于第二级别,该第二级别比第一级别低一个级别,并且比根级别低两个级别;标题364和368是标题360的子标题,并且处于第二级别,该第二级别比第一级别低一个级别,并且比根级别低两个级别。

来自该专利的过程至少部分地基于根标题与候选答案段落所属的各个标题之间的关系来确定上下文分数。

该分数可以基于航向矢量。

该专利说,对于每个候选答案段落,该过程确定一个航向矢量,该航向矢量描述了航向层次中从根航向到各个航向的路径。

标题向量将包括候选答案段落的标题文本。

对于上面示例有关月球绕月运行的时间的候选答案段落(1)-(3),分别对应的航向矢量V1,V2和V3为:

  • V1=<[Root: 关于 The Moon], [H1: The Moon's Orbit], [H2: How long does it take for the Moon to orbit the Earth?]>
  • V2=<[Root: 关于 The Moon], [H1: The Moon's Orbit], [H2: The distance from the Earth to the Moon]>
  • V3=<[Root: 关于 The Moon], [H1: The Moon's Orbit], [H2: The distance from the Earth to the Moon]>

我们还被告知,由于候选答案段落(2)和(3)是从同一文本部分340中选择的,因此它们各自的标题向量V2和V3是相同的(它们都在相同的标题(H2)下)。 )

针对每个答案段落调整分数的过程使用至少部分基于标题向量的上下文分数(410)。

该上下文分数可以是用于缩放候选答案段落分数的单个分数,或者可以是可用于调整候选答案段落分数的一系列离散分数/提升。

在该专利中事情变得晦暗

似乎确实有几项涉及特色片段答案的相关专利,而这项专利的目标是根据它们在标题层次结构中的位置从上下文中了解更多答案。

但是我’m被专利告诉我们基于上下文的一个答案会相对于另一个答案而感到困惑。

我遇到的第一个问题是,他们在同一上下文区域中比较的答案有些重叠。这两个是:

  • (2)距离为什么会变化?月亮’s distance from Earth varies because the moon travels in a slightly elliptical orbit. 因此,月亮’距地球的距离从225,700英里到252,000英里
  • (3)月亮’s distance from Earth varies because the moon travels in a slightly elliptical orbit. 因此,月亮’距地球的距离从225,700英里到252,000英里

请注意,第二个答案和第三个答案都包含同一行:“Thus, the moon’距地球的距离从225,700英里到252,000英里。”我对第二个答案中包含几个’t在第三个答案中,然后从第三个答案中跳过几行,然后包含最后一个句子,以回答问题。

由于它们都出现在它们来自的页面的同一标题和子标题部分中,因此很难想象存在基于上下文的不同调整。但是,该专利告诉我们的方式有所不同:

选择具有最高调整后答案分数(基于标题的上下文)的候选答案分数,并选择答案段落。

回想一下,在上面的示例中,候选答案段落(2)得分最高,其次是候选答案段落(3),然后是候选答案段落(1)。

但是,经过调整后,候选答案段落(3)的得分最高,其次是候选答案段落(2),然后是候选答案段落(1)。

因此,选择候选答案段落(3)并将其提供为图2的答案段落。 2。

根据通过率提高分数

查询问题处理器可以将候选答案限制为最大长度。

上下文评分处理器确定覆盖率,该覆盖率是指示从中选择候选答案段落的文本的候选答案段落的覆盖范围的度量。

该专利描述了其他问题的答案:

备选地,文本块可以包括从属于相应标题的文本部分,该文本部分包括从其选择了候选答案段落的文本部分从属的第一标题,以及具有与第一标题相同的直接父标题的同级标题。例如,对于候选答案段落,文本块可以包括层次结构的部分380中的所有文本;例如,或可以仅包括这些部分的文本,层次结构的该部分内的其他文本部分。可以将类似的块用于从该部分选择的候选答案段落的层次结构的部分。

较小的覆盖率可能表明候选答案不完整。高覆盖率可能表明候选答案段落捕获了从中选择它的更多文本内容。候选答案段落可能会根据此覆盖率而接受上下文调整。

段落覆盖率是候选答案段落中的字符总数与从中选择候选答案段落的段落中字符总数的比率。

段落覆盖率还可以是候选答案段落中句子(或单词)总数与选择候选答案段落的段落中句子(或单词)总数之比。

我们被告知其他比率也可以使用。

From the three example candidate answer passages about the 到月球的距离 above (1)-(3) above, passage (1) has the highest ratio, passage (2) has the second-highest, and passage (3) has the lowest.

该过程确定覆盖率是否小于阈值。该阈值可以是例如0.3、0.35或0.4或其他分数。在我们的“distance to the moon”例如,每个覆盖率均达到或超过阈值。

如果覆盖率小于阈值,则该过程将选择第一答案增强因子。根据第一关系,第一答案提升因子可以与覆盖率成比例,或者可以是固定值,或者可以是非提升值(例如1.0)。

但是,如果覆盖率不小于阈值,则该过程可以选择第二答案增强因子。根据第二关系,第二答案增强因子可以与覆盖率成正比,或者可以是固定值,或者可以是大于非提升值(例如1.1)的值。

根据其他功能评分

除了上述特征之外,上下文评分过程还可以检查特征的存在。

用于根据上下文对答案段落评分的三个示例特征可以基于独特文本,先前问题和列表格式的其他特征。

独特的文字

与众不同的文本是可能会突出显示的文本,因为其格式与其他文本不同,例如使用粗体。

前面的问题

前面的问题是文本中候选答案问题之前的问题。

搜索引擎可以处理各种数量的文本以检测问题。

仅检测从中提取候选答案段落的段落。

可以检查可以包含标题文本和其他部分中其他文本的文本窗口。

计算与从问题到候选答案段落的文本距离成反比的提升分数,并且在出现第一个问题时终止检查。

该文本距离可以用字符,单词或句子或其他某种度量来度量。

如果问题是一段文本的锚文本并且存在中间文本(例如在导航列表的情况下),则确定该问题仅在其链接到的文本段落之前,而不是中间文本之前。

In the drawing above about the moon, there are two questions in the 资源: “月球绕地球运行需要多长时间?” and “为什么距离在变化?”

第一个问题–“月球绕地球运行需要多长时间?”–在第一候选答案段落之前的文本距离为零句,在第二候选答案段落之前的文本距离为五句。

第二个问题–“为什么距离在变化?”–在第三个候选答案之前加零句。

如果检测到先前的问题,则该过程选择问题增强因子。

该提升因子可以与文本距离,文本是否在标题中的文本段落中还是问题是否在标题中,以及问题是否在标题中,以及候选答案段落是否在文本标题中而成比例。标头。

考虑这些因素,第三候选答案段落获得最高提升因子,第一候选答案获得第二最高提升因子,第二候选答案获得最小提升因子。

相反,如果未检测到前面的文本,或者在检测到问题增强因素之后,则该过程将检测到列表的存在。

清单的存在

列表表示通常具有启发性或信息性的几个步骤。列表的检测可以服从查询问题是逐步模态查询。

阶式模态查询是其中基于列表的答案很可能是一个好的答案的查询。步骤模型查询的示例如下:

  • [如何 。 。 。 ]
  • [我如何能 。 。 。 ]
  • [如何安装门把手]
  • [如何更换轮胎]

上下文评分过程可以检测由以下内容形成的列表:

  • HTML标签
  • 微型格式
  • 语义
  • 具有相同或相似短语的相同级别的连续标题(例如,第1步,第2步;或第一个;第二个;第三个;等等)

上下文评分过程还可以对质量列表进行评分。

它将查看以下内容:

  • 页面中心的列表,不包括指向其他​​页面的多个链接(指示参考列表)
  • HREF链接文本不会占据列表文本的很大一部分,其质量将比页面侧面的列表高,并且确实包含指向其他页面的多个链接(指示参考列表),并且/ are的HREF链接文本确实占据了列表文本的很大一部分

如果检测到列表,则该过程选择列表增强因子。

该列表提升因子可以是固定的,也可以与列表的质量得分成正比。

如果未检测到列表,或选择了列表增强因子,则过程结束。

在一些实施方式中,列表增强因子还可以取决于其他特征分数。

如果其他功能(例如覆盖率,独特文本等)具有相对较高的分数,则可以增加列表启动因子。

该专利告诉我们,这是因为“列表中这些分数的组合是高质量答案段落的有力信号。”

精选摘要答案分数的调整

候选答案段落的答案分数通过基于航向矢量,段落覆盖率和上述其他特征的评分组件进行调整。

评分过程可以从上面确定的值中选择最大的提升值,也可以选择提升值的组合。

一旦调整了答案分数,就将具有最高调整后答案分数的候选答案段落选择为特色片段答案,并显示给搜索者。

更多来

我将审查有关候选答案分数的该系列专利中的第一项专利,因为它确实具有一些避风港’这篇文章以及有关查询相关/无关排名信号的答案得分的文章中都有介绍。如果您一直在关注Google如何回答似乎在寻找答案的查询,那么在许多情况下,您可能已经看到了这些改进。不过,有些答案确实很糟糕。最好有一个尽可能完整的想法,即Google根据网络上可用的信息来决定对查询的最佳答案。

新增2020年10月14日–我已经写了关于Google答案得分的另一项专利,’值得阅读有关该主题的所有专利。新职位位于 计分答案段落的加权答案词,与专利有关 加权答案词,用于对答案段落进行评分.

它是关于识别资源中的问题以及这些问题的答案,并描述了使用术语权重作为对答案段落进行评分的方法(以及其他相关专利(包括该专利)中确定的评分方法)。

新增时间为2020年10月15日–如果您对Google如何在网页上找到问题和答案感兴趣,并对得分得分进行评分,以确定哪些片段作为特色片段,我还写了一些其他关于答案段落的文章,值得阅读。一世’ve与此文章正文中的某些文章相关联,但这是其中另一篇文章:

在2020年10月22日添加的内容中,我撰写了一篇详细的说明,内容涉及如何根据帖子中计分答案段落的专利中的特定标准为答案段落选择结构化和非结构化数据 选择候选答案段落.

分享是关怀!

关于13条想法“根据上下文调整摘要代码段答案”

  1. 那么,我们可以在页面上使用更多的H1吗?我认为这是多年来的超级否。

  2. 嗨,比尔,

    谢谢回复!我问是因为上面的“月亮”示例。所以也许“About the Moon”是H1,不是页面标题?这更有意义。

  3. 你好
    首先,感谢您分享这些有用的信息。我的问题是关于新网站的。谷歌是否偏爱新网站作为搜索摘要?以及我们有多少内容’ve为Google编写摘要。

发表评论

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.