意见 News Found By Machine Learning at Google

分享是关怀!

意见 News in Top Stories

今年早些时候,我写了一篇有关新闻报道的文章,这些新闻在 根据重要性得分选择Google的热门故事

我在那篇文章中写到的专利告诉我们,Google可能会尝试展示与被确定为热门话题的主题相关的观点,但事实并非如此。’告诉我们很多关于这些观点的文章。一项与之相关的专利是在确定文档中的意见,这些意见可能是可以根据某种重要程度进行排名的新闻文章。

A patent granted earlier this month tells us about how Google may use 机器学习 to identify 意见s in documents on the Web.

更详细地,该专利是关于采用一个或多个机器学习模型来将文档的部分分类为意见或非意见的系统和方法。因此,可以将分类为意见的部分视为包含在信息显示中。

专利说明首先告诉我们 “计算系统对文档中包含的内容(例如,文本内容)的理解是具有挑战性的问题。”

它指出,在专业新闻新闻领域中尤其如此,该领域的文章通常以高质量的语言和语法编写。而且该计算机系统很难仅了解这些新闻文章的实际内容。因此,这项新专利告诉我们它专注于新闻信息。

它还告诉我们在确定一篇文章与其他文章之间的比较时遇到的困难,而其他记者撰写的相关新闻文章则更具挑战性。热门专利没有’不能真正告诉我们如何选择一篇文章而不是另一篇文章显示在轮播中,所以很高兴了解更多。

我们被告知,可以选择并向搜索者提供文档(例如新闻文章)的生产系统几乎都是基于浅层内容信号(例如显着术语和实体等)和/或元数据(例如,当内容(例如,相对于其他文章)被发布时,发布者就是文章之间的引用(例如,链接等)。

该专利指出了几个问题,告诉我们,这样的生产系统通常不依赖对物品本身实际内容的细致理解。

我们被告知的解决方案涉及许多研究领域,这些研究领域与对文档内容的计算机化理解有关,并且在主观性检测领域试图识别主观文本。

这些类型的主观性检测技术将经常使用词典或使用词典训练的模型,并且不幸的是,此类词典的使用可能会受到固有的限制。

我们还被告知,主观性本身并不是特别有益。举个例子,“This is great!”这是一个主观的句子,但是就其本身而言,它不是非常有用。

情感分析将尝试捕获文本的总体情感(即积极,消极或中立),或内容可能涉及的特定方面/主题/实体的情感(例如,对国际条约的积极或消极看法)。

但是,我们被告知,句子层面的情感分析不能完全理解文本的实际含义。

在方面/主题/实体级别上的情感分析可能更具有洞察力,但是它具有以下局限性:

该方面/主题/实体必须存在于某些知识库中,并且可能难以确定两个方面/主题/实体如何相互关联。

同样,在姿态检测的相关领域中的工作通常是针对特定主题的支持或反对(例如在拟议的立法行动中)。

However, the resulting systems only work 对于 the topics they are trained on and can have limited applicability to new or developing topics.

面对所有这些问题,该专利试图提供一种解决方案。

It starts with a machine-learned 意见 classification model that is configured to classify portions of documents as either 意见 or not 意见.

完成分类后,将执行几个操作。

第一步可能涉及获得描述包含一个或多个部分的文档的数据。

Then inputting at least part of the document into a machine-learned 意见 classification model.

之后,将文档的该部分分类为意见还是非意见,作为机器学习的意见分类模型的输出。

可以在以下位置找到此专利:

Machine learning to identify 意见s in documents
发明人:鲍里斯·达达切夫(Boris Dadachev)和Kishore Papineni
受让人:Google LLC
美国专利:10,832,001
授予:2020年11月10日
提交日期:2018年4月26日

抽象

本公开的示例方面针对采用机器学习的意见分类模型以对文档(例如,新闻文章,网页等)的部分(例如,句子,短语,段落等)进行分类的系统和方法。是意见还是非意见。此外,在一些实施方式中,可以考虑分类为观点的部分包括在信息显示中。例如,可以根据重要性对文档部分进行排名,并根据文档的排名选择要包含在信息显示中的文档部分。另外或对于访问和考虑多个文档的系统,可以将被分类为意见的文档部分与其他文档的类似分类部分进行比较,以执行文档聚类,以确保演示文稿和/或其他任务的多样性。

How to Identify 意见s in Documents

该专利告诉我们有关采用机器学习的意见分类模型的系统和方法,该模型用于将新闻文章,网页和其他文档的句子,短语,段落等部分分类为意见或非意见。

Those portions that have been classified as 意见s may be included in an informational display.

Document portions may be ranked according to the importance and then be selected 对于 inclusion based on their ranking.

该专利告诉我们,在考虑多个文档时,可以将分类为意见的文档部分与其他文档的类似分类部分进行比较,以进行文档聚类,这将有助于确保演示文稿和其他任务的多样性。

Classifying 意见 and Importance

因此,此计算系统将具有两个主要组件:

  1. A machine-learned 意见 classification model, which obtains portions from a document and classifies them as 意见ated or not 意见ated
  2. 汇总算法,它将通过部分重要性方法(以及可能的其他示例标准,例如在没有更多上下文的情况下独立的能力)对文档中的各个部分进行排序

Machine learned 意见 News classification model

How 意见s would be Displayed in Search Results

These two components may be used to show a searcher a document portion that is both important and 意见ated.

一个示例是显示标识一些文档的显示,其中包含摘要或“snippet” 对于 each, where each 片段 is taken from a portion of the document classified as an 意见 and/or ranked as having high importance.

在提供查询结果以响应查询时,可以使用该摘要,作为“top stories” or “what to read next”新闻聚合/演示应用程序的功能,或在其他情况下,可能包括与同一总体新闻相关的多个不同新闻文章的演示“story.”

意见 news 热门故事

该专利将利用机器学习来生成改进的摘要或“snippets”诸如新闻文章之类的文档提供给用户。

通过提供能更好地反映实际意见内容的摘录,而不是通用的事实或引语,搜索者可以更快速地理解文档的真实性质,并确定她是否有兴趣全面阅读文档。

搜索者可以加载和阅读可能不感兴趣的文档。

通过识别和比较归类为实际意见内容的文档部分,可以提供考虑到文档实际内容的信息显示,具有更好的多样性,结构和其他功能。

The searcher can avoid reading 文章s featuring redundant 意见s.

And 意见s, as seen in editorials, “op-eds,”评论等在新闻新闻生态系统中起着至关重要的作用。

他们为编辑团队,外部专家和普通市民提供了参与特定问题或事件的公开辩论的机会。

这可以帮助公众看到故事的各个方面,并打破过滤泡。

An 意见 can include a viewpoint or conclusion that an author of a document explicitly writes into that document.

Sometimes, 意见s or 意见ated portions of a document can be less explicitly recognized as such.

For example, a rhetorical question can be a 对于m of 意见 depending on how it is phrased, such as sarcasm.

As another example, a summary of facts can be an 意见 or indicate an 意见 depending on which:

  • 选择全部事实的各个部分
  • 这些事实的显示顺序
  • 插页式措辞
  • 其他因素

此信息显示将是什么样子,我们将如何到达那里?

专利告诉我们determining whether a portion of a document is 意见 is a challenging task and requires a nuanced understanding of human communication.

The computer system aggregating and presenting news 文章s to a searcher may include or show a 片段 对于 a particular 文章.

The 片段 may mimic or mirrors the headline of 文章s.

In other instances, the 片段 may be from the output of a generic multi-document extractive summarization algorithm.

有人告诉我们,一般的摘要算法通常不会考虑文本的主观性。

因此,在尝试突出显示和总结意见的主观部分时,一般的摘要算法通常无法识别有效传达文章提出的实际意见的摘要。

该专利告诉我们,姿势检测对于更好地理解故事(在同一新闻事件中使用来自不同出版商的大量文章)将非常有用。

但是,很难定义立场,也不能量化立场。

由于这些挑战,本专利认识到新闻文件通常具有两种主要风格,即新闻事件的中立报道和对这些事件的看法。

能够将新闻文章中的中性文本与有主见的文本区分开来,有助于过滤掉不携带立场的文本,从而有助于进行立场检测。

本公开可通过以下方式在执行姿势检测或其他相关任务中有用:

  • Identifying 意见ated portions in documents
  • Relating 意见ated portions inside the document and/or across other documents (e.g., that relate to the same story)
  • To surface 意见ated 片段s or quotes to users of a news aggregation/presentation application and/or in the 对于m of search results
  • To identify portions of a document that convey 意见 (e.g., as contrasted with quotes and facts)

专利告诉我们this classification model will be used to filter “un-interesting”用于站姿检测的部分,例如引用和事实。

Classifying Portions of Documents 对于 意见s

该专利中描述的计算系统可以将每个部分输入到意见分类模型中,并且该模型可以为输入部分产生分类。

它将分类的文档类型包括:

  • 新闻文章
  • 网页
  • 对话记录(例如访谈)
  • 演讲稿
  • 其他文件

可能分类的文件部分包括:

  • 句子
  • 对连续句子
  • 段落
  • 页数
  • 等等。

这些部分可以重叠或不重叠。

Determining 意见 in Documents

专利告诉我们“opinionatedness”(即某事物的表达或表达意见的程度)在某种程度上是主观的,并且非常依赖主题和上下文。

并且它告诉我们,由于这个原因,并且由于较简单的方法具有明显的局限性,因此该专利中的系统和方法使用了机器学习方法。

现有方法的缺点在于,使用预定义词典不足以解决呈现部分的上下文。

例如,术语“short-sighted” is clearly an 意见ated word in a political 文章 but is probably not in a medical 文章.

再举一个例子“dedicated” is 意见ated when qualifying a person but not when qualifying an object.

So the basic use of a lexicon to identify 意见ated portions does not appropriately capture or account 对于 context.

如本文所述的机器学习模型的使用提供了优越的结果,表明上下文和/或主题相关的理解和分类。

As one example, the machine-learned 意见 classification model can include one or more artificial 神经网络 (“neural networks”).

Some example 神经网络 can include:

  • Feed-forward 神经网络
  • Recurrent 神经网络
  • Convolutional 神经网络
  • Other 对于ms of 神经网络

我们还被告知,神经网络可以包括隐藏的神经元层,在这种情况下,可以称为深度神经网络。

And the machine-learned 意见 classification model can include an embedding model that encodes a received portion of the document.

嵌入模型可以在模型的最终层或接近最终层的位置产生嵌入,但不能在模型的最后一层产生嵌入。

它可以在嵌入维空间中编码有关文档部分的信息。

The machine-learned 意见 classification model may also include a label prediction model generating a classification label based on the encoding or embedding.

嵌入模型可以是或包括递归神经网络(例如,单向或双向长短期记忆网络),而标签预测模型可以是或包括前馈神经网络(例如,只有少数几个的浅层网络)层)。

嵌入模型可以是或包括具有在单词上设计的一维内核的卷积神经网络。

The machine-learned 意见 classification model can include or leverage:

  • 句子嵌入
  • 词袋模型(例如unigram,bigram和/或trigram级别)
  • Other 对于ms of models

意见分类模型可以是二进制分类器,这意味着它可以产生“Opinion” or “Not 意见”输入到模型中的文档的每个部分。

Or the 意见 classification model can be a multi-class classification model.

例如,分类模型可以输出以下三个类别之一:

  • Not 意见
  • Reported 意见 (e.g., representing the 意见 of a third party such as, 对于 example, quoting someone’s 意见)
  • Author 意见 (e.g., representing the 意见 of the author of the document)

归类为“Opinion” or “Author 意见” may be considered 对于 inclusion in an informational display (e.g., in the 对于m of 意见ated 片段s).

可能会使用其他和/或不同的标签而不是这些标签。

例如,可以使用其他标签(例如,除了“Opinion” or “Not 意见”),说明其中文档的一部分难以分类的情况(例如,存在于意见和非意见之间的边界)或包含事实和意见的混合情况。

这些标签可能是:

  • “May Be 意见” label
  • A “Possible Author’s Perspective” label
  • A “Mixed Fact and 意见” label

分类模型可以输出分类分数,然后可以基于分类分数来生成标签(例如,通过将分数与阈值进行比较)。

或者分类分数可以称为置信度分数。

Usually, a larger classification score indicates that the corresponding portion is more 意见ated or more probably 意见ated.

例如,分类模型可以输出范围为0到1的分类分数,其中0对应于完全非意见,而1对应于全部意见。

Following that, a classification score of 0.5 may indicate a mix of 意见 or not 意见.

或者,分类模型可以输出单个分数,并且可以基于单个分类分数(例如,通过将分数与一个或多个阈值进行比较)来生成标签。

或者,分类模型可以为每个可用标签输出相应的得分,并且可以基于多个得分将一个或多个标签应用于该部分(例如,通过将每个相应的得分与相应的阈值进行比较和/或通过选择得分最高)。

或者,可以使用附加特征(例如,作为文档的输入本身提供给模型,或者单独用作附加选择逻辑)。

其他功能的示例可能包括:

  • 词典
  • 主要文章主题
  • 周围环境
  • 故事情境
  • 文件类型(例如,新闻文章与医学学术论文)
  • 有关发布者和/或记者的上下文
  • 其它功能

作为另一示例,仅选择文档的被分类为观点的部分,并且根据主观性词典还具有至少两个强烈主观的单词。

意见 Training Datasets

The machine-learned 意见 classification model may be trained based on many different training schemes or training datasets.

该专利告诉我们两个训练数据集。

  • A first training dataset can include 意见 pieces from a news corpus, where 意见 labels are applied at the document level
  • 第二个质量更高的培训数据集,其中包括文档,这些文档的某些部分已使用众包进行了单独和手动标记

例如,可以根据两个类别应用标签:

  1. Sentence reflects the 意见 of the author
  2. Everything else; or according to the three classes described above which include a distinction between author 意见 and reported 意见

第一个训练数据集可用于改进或播种分类模型(例如,学习嵌入,利用带标签但嘈杂的数据)。

第二训练数据集将能够训练更高精度的分类器。

The machine-learned 意见 classification model could be trained on only the second training dataset.

已经在其他任务上进行训练的预训练语言处理模型,可以在第一和/或第二训练数据集上被重新训练以生成意见分类模型。

这种经过预训练的语言处理模型可以包括Word2vec模型基础。

The first training dataset may be generated 通过 identifying 意见 文章s 通过 the application of various search rules.

通过查看诸如以下内容的关键字,此过程可以从新闻语料库中提取意见和非意见文章“opinion” or “oped”在网址或文章的正文中。

从第一训练数据集中,可以从识别出的文章中提取所有句子。

然后可以将文档的标签分配给此类文档的每个部分(例如,句子)。这将提供一种相对简单和快速的技术来生成大型的第一训练数据集。

由于其构造方式,第一个训练数据集将具有一个缺点:生成的分类模型将学习预测句子是否可能是意见书的一部分,而不是它是否表达意见。

这就是为什么在更细粒度的第二训练数据集上进行训练会带来显着改善的原因。

专利告诉我们sometimes training of the model may be performed only using the second training dataset and not the first.

The training 对于 the second dataset may involve that additional data be collected on a number of related aspects:

  • 句子是否样板(“注册以接收我们的简讯!”
  • Whether the 意见 expressed is the author’s own (as opposed to reported 意见s in, 对于 example, quotes
  • 句子是否可以独立存在
  • 仅知道文章标题是否可以理解句子

所描述的示例训练方案将使机器学习的意见分类模型能够学习如何从大型带注释的语料库表达意见。

该模型将整个部分作为输入(例如,包括一个递归神经网络的模型,该循环神经网络依次将每个单词作为输入),并且将训练该模型以理解和利用包括在部分中的结构信息,包括句子结构。

The training system would obtain document data that includes 意见 labels.

训练计算系统可以确定文档数据的各个方面之间的相关性,例如:

  • 句子的结构
  • 选词
  • 标点
  • 句法
  • 格式化
  • 文件功能
  • 意见 classifications

This training system could iteratively update correlations on receiving new document data to 对于m the 意见 classification model.

Once the model is trained, the 意见 classification model can be used to identify 意见s within documents.

机器学习的分类模型将不限于狭窄的域(例如特定的词典或词典),而是可以处理任何语言输入。

The 意见 classification model would be easily extensible to other languages (by generating training datasets 对于 such other languages).

Displaying 意见 Information from Documents

Following another aspect of the patent, this system could generate a 片段 or summary 对于 the document based on classifications that have been generated 通过 the 意见 classification model.

The system may perform a ranking process to determines which sentence would serve best as a standalone 片段.

选择的句子应该与故事相关,并且在没有上下文的情况下也能很好地阅读。

可以基于以下条件生成排名:

  • 每个部分的摘要
  • 各个部分提到的各个实体的标识
  • A respective classification score assigned to each respective portion 通过 the machine-learned 意见 classification model

可以通过仅查看文档或查看文档簇来确定重要性。

Looking at the clusters allows the system to diversify the point-of-views that are highlighted in the 片段s.

The system can perform one or more document summarization algorithms to rank portions of the document in selecting a 片段.

文档摘要算法可以:

  • Choose a set of candidate portions 对于 each document
  • Taking into account portion importance, portion 固执己见 (e.g., as reflected 通过 the portion’的相应分类分数)
  • 集群中各个文章之间的摘要多样性(例如故事)

系统可以执行标准文档摘要算法,但是可以将对算法的输入限制为仅由分类模型标记为意见的部分。

The summarization algorithm can discard all sentences unsuitable as 片段s, and then select the most 意见ated sentence, as could be indicated 通过 the scores produced 通过 the classification model.

A document summarization algorithm can combine sentence importance and 固执己见 to re-rank sentences.

有可能:

以重要性_得分*观点_信心的降序对句子进行排序。

If no sentence is deemed 意见ated, a non-opinionated sentence may be returned.

This approach is the most flexible and allows additional heuristics (e.g., the 片段 could be restricted to the top three portions according to the summarization algorithm).

So, the patented process can be used 对于 selecting 片段s that reflect the author’s 意见 对于 意见 pieces in a news aggregation/presentation application.

意见 pieces can be displayed in:

  • 意见 blocks (e.g., alongside additional 意见 pieces 对于 a given news story)
  • 与非意见片一起
  • 独自站着

One goal would be to provide 片段s enticing the users to read an 意见 piece.

其他目标包括:

  • 一种过滤句子的方法,这些句子可以吸引作者’ 意见s
  • Discarding factual sentences and other 无趣的 sentences (e.g., quotes)

该意见分类模型还提供了一种仅选择非意见文章的中性或事实句子的方法(例如,通过删除标记为意见的句子)。

The respective 意见 sentences in 文章s across an entire news story can be clustered to understand which 文章s share the same point of view.

This can provide a better understanding of individual 文章s and a comparison between 文章s on the same news event or overarching 故事。

通过隔离作者的观点/观点,系统可以确定在几位作者和报纸之间是如何共享观点或不同观点的,以实现聚类,多样化和/或其他任务。

By clustering based on 意见ated portions, a more nuanced understanding of different positions concerning a subject can be ascertained.

典型的情感分析或姿势检测可能会发现一组固定且有限的情感(例如,通常“for”, “against”, or “neutral”).

Clustering based on 意见 might reveal six or seven overlapping but distinct positions about a certain subject.

The 意见 identification and 片段 selection techniques described here will not provide a fixed, finite set of positions to train on but instead, a more natural and nuanced clustering of 意见s can be obtained.

因此,获得专利的过程可以利用机器学习来改进摘要或“snippets”诸如新闻文章之类的文档提供给搜索者。

使用能更好地反映实际意见内容的摘要(例如,而不是一般的事实或引语),用户可以更快地理解文档的真实性质,并确定她是否有兴趣阅读全文。

搜索者可以避免加载和阅读她不感兴趣的文档。

通过识别和比较已归类为实际意见内容(例如,而不是一般性事实或引文)的文档部分,该专利过程可以考虑到信息的实际内容,提供具有改进的多样性,结构和其他功能的信息显示。文件。

搜索者可以更轻松地确定文档中所包含的不同立场的不同代表,并且可以避免阅读带有多余观点的文章。

意见 News Take Aways

This patent provides more details about how a 机器学习 approach might be used to identify 意见 news to potentially show with 热门故事 or in 谷歌新闻 results.

我喜欢这样的观点,即这些意见可能是由’不一定是新闻工作者,但可以是涉及故事主题的行业中的消费者或人员(例如公司的员工,职业运动员或科学家)。

如果您参与撰写有关不同主题的新闻,则撰写观点文章可能是与大量人群共享您的内容的一种方式。人们对这样的观点感兴趣,值得分享。

It’s good seeing Google find a way to identify 意见 news and incorporate those 意见s into content such as 热门故事 in the news.

分享是关怀!

发表评论

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.