问题用文本跨度与单词向量回答

Sharing is caring!

使用神经网络回答的问题

Google执行问题疑问并返回响应查询的URL。

谷歌在搜索者打算回答问题时显示答案,并在其索引中列出的页面最佳回答查询时提供给URL的链接列表。

我写了关于Google会议拍摄搜索者’s intent that way in 实体寻求查询和语义依赖树

谷歌一直在努力在查询中提供质疑回答。

我已经使用答案段落写了谷歌,以及谷歌如何为寻求特定答案的问题提供直接答案,以响应一个问题,而不是一个可以提供答案的页面的链接。

我写的最近的问答帖子是 谷歌使用架构是否为特色片段写回答段落?

我撰写了许多关于相关问答专利的帖子,它们是:

我们不’知道哪个是搜索引擎的用途。尽管如此,我已经看到更多专利申请在谷歌发布和授予,涉及使用神经网络的机器学习方法。

该专利似乎与那些不同,因为它使用了一个字向量方法来理解和回答问题。

你可能会记得我写了关于帖子中的那些人 谷歌脑词向量背后的引用方法。这告诉我们关于RankBrain后面的算法以及谷歌如何根据这些查询中出现的单词的含义来识别查询中缺少的单词。

该新专利申请描述了一个系统,其从输入电子文档中选择文本跨度以应答输入问题。

该专利提供了一个非常简要的摘要如何运作:

通过使用轻量级,即计算效率,模型在级联中组合以找到输入问题的答案,所描述的系统可以在输入文档中找到文本,该文件在回答输入问题。

特别地,所描述的系统可以优于更复杂,更少的计算有效的架构。因此,所描述的系统可以回答所接收的问题,同时消耗较少的计算资源,例如,较少的存储器和更少的处理能力,而不是传统方法,当系统在资源受限环境中,例如在移动设备上时可能特别有用。

特别地,尽管消耗了比在最先进的系统之前,但是,系统可以满足最先进的结果,尽管消耗了许多计算资源,例如,最先进的系统,例如使用计算密集型的经常性神经网络的系统处理文件令牌,问题代币或两者。

该专利可以在:

使用神经网络从电子文件中选择答案跨度
发明人: Thomas Mieczyslaw Kwiatkowski., Ankur P. Parikh., 斯韦巴·斯维亚曼德塔
提交日期:2018年10月29日
出版号码US20200265327.
出版日期:2020年8月20日
申请人Google LLC.

我们看到对本专利摘要中的文字向量的引用。

抽象的

方法,系统和装置,包括在计算机存储介质上编码的计算机程序,从输入的电子文档中选择文本跨度,该文件跨度回答输入问题。

其中一个方法包括为每个文本跨度获取输入文档中的文本跨度的相应第一数字表示:

确定包含文本跨度的段,一个问题感知段向量
确定,对于问题,一个分段感知的问题矢量
处理文本跨度,问题感知段向量和段感知问题向量的第一数字表示,使用第二馈送神经网络生成文本跨度的第二个数字表示
对于多个文本跨度中的每个唯一文本跨度:

确定唯一文本跨度的聚合表示
从聚合表示中确定,唯一文本跨度的最终分数
选择唯一的文本跨度。

本专利上市的两位发明人是关于问题的两篇论文的共同作者。第一个是2017年: 学习用于提取问题的复发性跨度表示Anaswering

抽象的

阅读理解任务,提出关于给定的证据文件的问题是自然语言理解的核心问题。

最近的这项任务的配方通常集中在手动预定义的一组候选者的答案选择或通过使用外部NLP管道。

但是,Rajpurkar等人。 (2016)最近发布了Squad数据集,其中答案可以是来自提供的文本的任意字符串。

本文侧重于此答案提取任务,提出了一种新颖的模型架构,可有效地构建具有经常性网络的证据文件中所有跨度的固定长度表示。

我们表明评分显式跨度表示显着提高了对其他方法对关于单词或开始和结束标记的单独预测的方法的性能。

Our approach improves upon the best-published results of Wang & Jiang (2016) by 5% and decreases the error of Rajpurkar et al.’s baseline by > 50%.

第二是2019年起: 用密度稀疏短语索引回答实时开放式问题

摘要告诉我们它是关于:

抽象的

现有的开放式域问题应答(QA)模型不适合实时使用,因为它们需要处理每个输入查询的几个长期文档。

本文介绍了文档短语的查询可靠性可索引表示,这些文档短语可以迅速加速开放域QA,并允许我们到达LogTail目标。

特别地,我们的密集稀疏短语编码有效地捕获了短语的句法,语义和词汇信息,并消除了上下文文档的流水线过滤。

利用优化策略,我们的模型可以在单个4-GPU服务器中接受培训,并仅使用CPU的2TB下的整个维基百科(最多60亿短语)。

我们对Squadopen的实验表明,我们的模型比DRQA(Chen等人,2017)更准确,具有6000x降低的计算成本,它转化为CPU的至少58倍的端到端推理基准。

那篇论文的摘要告诉我们它是什么。

该专利描述了一个系统,该系统从电子文档中选择文本跨度应答所接收的问题。

一旦发现文本跨度来回答问题,就可以选择所选文本跨度作为对问题响应的一部分。

输入问题可能是语音查询,然后系统可以响应查询提供口语话语。

类似的移动设备,如智能扬声器或与具有语音输入交互的另一计算设备,可以接收用户所说的语音查询,并将接收的查询发送到系统(例如,通过数据通信网络。)

然后,系统可以识别可能包含接收查询的答案的候选电子页面,使用本说明书中描述的技术从页面中选择文本跨度,然后将文本跨度发送到计算设备作为响应的一部分语音查询(即,作为表示文本跨度的口头话语的数据或作为用于在计算设备处转换语音的文本的数据。)

在某些情况下,用户可以识别候选页面。

如果用户在使用计算设备查看给定文档的同时提交语音查询,则系统可以将给定文档识别为候选电子文档。

在其他一些情况下,外部系统(例如,互联网搜索引擎)标识候选者’S根据查询的电子文档。然后,它将候选电子文档提供给系统。

该系统可以将问题作为文本查询接收,并为用户设备提供文本跨度,作为对文本查询的响应的一部分。

Internet搜索引擎可以接收文本查询,并且由互联网搜索引擎可以使用系统识别的文本跨度作为对搜索查询的响应的一部分(例如,作为内容的格式化呈现以及由所识别的搜索结果一起使用互联网搜索引擎响应查询。)

识别回答文本跨度,以帮助问题应答

数字表示

该系统可以接收输入问题和输入电子文档,并从回答问题的电子文档中识别文本跨度。

两者都被令牌化(即,输入问题和电子文档的文本表示为相应的令牌集。)

令牌可以是(例如,从可能令牌的词汇表中选择的单词,短语或其他n-gram。)

收到电子文档时,系统识别页面上的候选文本跨度。

系统可以识别为候选文本跨越页面中的每个可能的连续令牌序列,包括少于阈值数量的令牌。

由于相同的候选文本跨度可能发生在整个页面中的多次时,因此系统还可从文档中的候选文本跨度识别,这是一组唯一的文本跨度(即,使得在唯一文本跨度集中没有文本跨度对应对于任何其他唯一文本跨度集中的任何其他文本跨度。)

如果两个文本跨度在阈值编辑距离内,则系统可以考虑一个文本跨度对应于另一个文本跨度。

系统可以考虑两个文本跨度,以对应于具有命名实体识别系统的相同实体。

一个级联机器学习问题应答模型

该系统使用级联机器学习系统(即,具有级联模型架构的机器学习系统,以选择从一组唯一文本跨度的文本跨度作为回答输入问题的文本跨度。)

级联模型架构使用三种机器学习模型:1级,2级和3级。

这是一个“cascade”因为级联每个层中的模型接收从级联层的前一层中的模型输出的输入。

级联的最终层中的模型,即第3层,从前一层中的模型的输出产生机器学习系统的最终预测,即第2层。

级联的级别1在问题的简单特征上运行,候选文本跨度跨越每个文本跨度的相应的第一个数字表示。

数值表示是有序的数值集合(例如,浮点值或量化浮点值的矢量,矩阵或高阶张力。)

1级的模型仅在嵌入的令牌令牌嵌入式的eMbeddings上运行,并且可选地是一个二进制问题字特征,指示给定SPAN是否包含问题中的令牌。

嵌入是固定尺寸空间中数值的向量。

因为嵌入式已经预先训练,所以固定尺寸空间中的嵌入式显示相似之处(例如,它们所代表的令牌之间的语义相似之处。)

嵌入这个词“king”可能更接近固定尺寸空间,以嵌入单词“queen”而不是嵌入这个词“pawn.”

系统使用的这种预训练嵌入的示例包括 Word2vec嵌入式手套嵌入.

级联层2中的模型使用级别1生成的第一个数字表示以及对每个候选跨度的注意力机制对准包含候选跨度的文档段中的令牌的问题令牌,例如,句子,段落或者在包含候选跨度的电子文档中的其他令牌组,用于为每个候选答案跨度生成相应的第二数值表示。

第3层的模型接收候选文本跨度的第二个数字表示,并从文档中多次提到的所有候选答案跨度聚合信息,即在整个文档中多次发生,以确定每个唯一的相应最终分数文字跨度。因此,给定的唯一文本跨度的最终分数测量唯一文本跨度答案的问题。

然后,系统基于最终分数选择从唯一文本跨度的文本跨度。例如,系统可以选择具有最高最终得分的唯一文本跨度作为问题的答案。

为了允许级联机器学习系统得分答案跨度(即,通过级联的第3级生成的最终分数可用于识别输入问题的答案,系统列举级联的机器学习模型训练数据包括标记的培训例子。)

也就是说,每个标记的训练示例包括一个问题,其标有标识正确的文本跨度的数据(即,来自电子文档的文本跨度,最能解答问题的文本。)

级联的级别1可以包括两个模型:跨度+短上下文模型和一个问题+跨度模型,其统称地生成第一个数字表示。

对于任何给定的文本跨度,模型运行

  1. 输入文档中文本跨度的左侧上下文的初始表示
  2. 文本跨度的初始表示
  3. 初始表示输入文档中的文本跨度的正确上下文,以生成作为输出文本跨度的Span-Context表示

文本跨度的初始表示基于文本跨度中令牌的预先训练的嵌入。

文本跨度的初始表示可以是嵌入文本跨度中的令牌的一袋单词(即,文本跨度中令牌的eMbeddings的平均值。)

或者文本跨度的初始表示也可以是嵌入文本跨度中令牌的一袋单词的串联,并且一个问题字特征,指示文本跨度是否包括任何问题令牌。

问题字特征可以是二进制特征(例如,当文本跨度包括一个或多个问题令牌时具有值1,并且当文本跨度不包括任何问题令牌时具有值0。)

左上文的初始表示是嵌入文本跨度的左侧上下文中的令牌的一袋单词,即K令牌的嵌入式的平均值到输入文档中的文本跨度的立即左侧。

右侧上下文的初始表示是嵌入文本跨度的右侧上下文中令牌的一袋单词(即,k代币的嵌入式的平均值到输入文档中的文本跨度的立即右侧。)

要生成文本跨度的跨上下文表示,模型将处理串联

  1. 输入文档中文本跨度的左侧上下文的初始表示
  2. 文本跨度的初始表示
  3. 使用前锋神经网络初始表示文本中的文本跨度的正确上下文

在一些实现中,神经网络是具有整流线性单元(Relu)激活的双层前馈神经网络。

特别地,来自前馈神经网络的操作以从输入x生成表示H,并且可以表示为:

(NB)其中U和V参数矩阵和A和B是前馈网络的参数偏差。

该模型还配置为为文本跨度生成分数,如最终得分,衡量唯一文本跨度答案的唯一文本答案的问题(显示为丢失项L 2的输入)。

特别地,该模型可以通过将文本的跨度上下文表示通过将向量映射到单个值的线性预测层来处理文本跨度的跨度上下文表示来生成得分。

特别地,线性预测层执行的操作以产生值?从输入表示,H可以表示为:

(NB)其中w和z是线性预测层的参数。

下面更详细地描述使用由模型产生的培训生成的分数。

对于任何给定的文本跨度,该模型运行开启。

(i)文本跨度的初始表示和
(ii)问题的初始表示,以生成文本跨度的问题跨度表示。

该模型首先根据每个问题令牌的嵌入生成每个问题令牌的权重。

该模型可以通过首先应用另一个前馈神经网络,即将FFNN操作应用于嵌入问题令牌来生成问题令牌的权重,以生成问题令牌的初始表示,然后应用另一个线性预测层到问题令牌的初始表示。

然后,该模型可以通过计算问题令牌的eMbeddings的加权平均值来生成问题令牌的初始表示,其中嵌入每个问题令牌被计算权重的标准化版本加权。

一旦生成了问题的初始表示,模型通过应用另一个前馈神经网络(即,应用上述FFNN操作,以追溯初始表示来生成文本跨度的问题跨度表示。文本跨度和问题的初始表示。)

虽然在推理期间不使用,但在培训期间,该模型也被配置为为文本跨度生成分数,如最终得分,衡量唯一文本跨度如何回答问题。

特别地,该模型可以通过处理文本跨度的问题跨度表示通过另一线性预测层来生成分数。

文本跨度的第一个数字表示是问题跨度表示和Span-Context表示的串联。它作为输入到级联的2级提供。

级联的级别2包括上下文注意模型,因为对于给定的问题跨度,在第一数字表示上操作以生成问题跨度的第二个数字表示。

对于给定的文本跨度,问题应答模型生成,

(i)对于输入文档中的文本跨度的段,基于问题和包含文本跨度的段中的问题令牌之间的问题令牌之间的相似性的问题感知段向量
(ii)对于问题,分段感知的问题矢量问题是基于问题和包含文本跨度的段中的问题和段令牌之间的问题令牌之间的相似性。

为了生成这两个向量,模型测量每对问题和段嵌入之间的相似性(即,在每个问题嵌入和每个段嵌入之间生成相应的相似度分数。)

生成相似度分数?对于嵌入Q i的给定问题嵌入Q i“嵌入d j对,该模型执行以下操作:

? ijn = ffnn(q i)t ffnn(d i)。

为了生成包含文本跨度的输入文档中的段的问题感知段向量,该模型然后确定每个段令牌的相应的参与的向量,其考虑段令牌的相似性,以反映由问题令牌的问题令牌。相似性分数并确定来自段令牌的参加向量的问题感知段向量。

为了确定该问题的段感知问题矢量,模型确定每个问题令牌的各个参与的向量,其测量由相似性分数反射的段令牌的问题令牌的相似性,并确定来自的分段感知问题矢量问题令牌的出席载体。

特别地,为了生成质疑感知段向量,每个原始段嵌入向量和其相应的上任的向量被连接并通过另一前馈网络。由此产生的表示,以获得问题感知段向量。

将每个原始问题嵌入载体及其相应的参与的矢量连接并通过该前馈网。由此产生的表示,以获得分段感知的问题向量。

该模型然后使用文本跨度的另一前馈神经网络第二数字表示来处理文本跨度,问题感知段向量,段感知段传染媒介和问题跨度特征的第一个数字表示的串联。

虽然在推理期间不使用,但在培训期间,该模型也被配置为为文本跨度生成分数,如最终得分,衡量唯一文本跨度如何回答问题。

特别地,该模型可以通过将文本的第二数量表示通过另一线性预测层来生成分数。

等级3包括聚合许多提升模型,其接收候选答案跨度的第二个数字表示,并基于第二个数字表示在整个文档中发生多次的所有候选答案跨度的信息。

特别地,对于每个唯一问题跨度,模型处理对应于使用另一前馈神经网络的唯一文本跨度对应的每个文本跨度的第二个数字表示来为每个文本跨度生成相应的变换的数字表示。

然后,该模型通过求解与唯一文本跨度对应的候选文本跨度的变换的数值表示来确定唯一文本跨度的总表示。

然后,该模型通过处理唯一文本跨越另一线性预测层来生成唯一文本跨度的最终分数。

虽然各种前馈神经网络的架构和由模型采用的各种线性投影层通常相同,但是每个前馈神经网络和线性投影层通常具有来自彼此神经网络或投影层的不同参数值。

要确定这些参数值,系统会在培训数据上列车级联机器学习系统。

培训级联神经网络系统的问题应答

为方便起见,使用位于一个或多个位置的计算机系统执行该过程。

问题应答系统执行该过程。

该系统可以对多个训练示例进行过程以更新级联神经网络系统的参数的值。

系统获得训练示例。此培训示例始于培训问题和培训文档,并从最能答案的培训文档中识别正确的单词跨度。

系统使用级联的神经网络系统来生成培训问题和培训文档来生成:

  • (i)与正确的单词跨度对应的唯一单词跨度的最终得分
  • (ii)每次提及培训文档中的正确单词跨度的每个模型的分数

特别地,如上所述,在训练之后,仅使用最终分数来选择输入问题的最佳答案;在训练期间,每个模型被配置为为每个候选词跨度训练文档生成相应的分数。

通过确定参数上的损失功能的梯度来确定对级联机器学习系统的参数的更新。

损失函数L包括取决于由相应的模型生成的分数的术语。

特别地,对于每个模型,损失函数包括相应的丢失项,其取决于分配给培训文档中正确单词跨度的提到的分数,并且对于模型,损失术语取决于最终的损失项分配给与模型相对应的唯一单词跨度的分数。

特别是,损失函数可以是所有子模型下正确答案跨度的总负值对数。

例如,损失函数表示为:

(NB)每个人在哪里?是一个普遍的分数,使得Δs增加到1,s *是训练文件中正确答案跨度的所有提到的集合,p(k)(s | q,d)是分配给提及的分数由型号160-180的第k个模型和P(4)(U | Q,D)的集合S *是分配给模型唯一答案跨度的最终得分。

系统可以使用机器学习训练技术(例如,BackPropagation,并且可以通过应用更新规则来确定来自梯度的更新)来确定每个参数的梯度)(例如,adam更新规则,rmsprop更新规则,或随机梯度下降学习率,梯度。)

Sharing is caring!

12思想“问题用文本跨度与单词向量回答”

  1. 迷人。
    I guess it’我喜欢开启光开关,刚刚被视为理所当然,我’d从不考虑整个搜索过程。
    谢谢你的启发…. so to speak.

  2. 嗨Dani,

    在Google Patents中有几种​​不同的方法可以在Google Patents上写出问题。我最近写了大约4个相关专利,即所有提到的回答段落,与这项专利截然不同,它使用数字向量方法来回答问题。它’有趣的是看到谷歌可能有一个选择他们如何了解查询中的问题,并找到那些答案。一世’一直在看谷歌的专利15年,并且令人着迷于他们可能采取的不同方法。谷歌可能会发现不止一种方法来做一些事情,这就是为什么我喜欢为他们可能工作的不同方式看专利。

  3. 谢谢。特洛伊。

    我喜欢看到所有的作品如何合适。看到答案段落专利是令人兴奋的,甚至更令人兴奋地看到这一个可以在一个单词矢量方法之后以完全不同的方式进行质疑回答。它’很好地看到多种方法以及如何完成它们。

  4. 我的目标不是达到最先进的准确性,但要学习不同的NLP概念,实现它们并探索更多的解决方案。我一直相信从基本模型开始了解基线,这也是我的方法。

  5. 谢谢你分享账单。我必须说,我喜欢在技术上是如何面向你的帖子– each time I’在这里我学习一些新的ðÿ™,

发表评论

本网站使用AkisMet减少垃圾邮件。 了解如何处理评论数据.

发布时间: 2021-05-07 17:44:06

最近发表