从诸如Wikipedia标题和信息框之类的来源中提取实体的知识库事实

分享是关怀!

Google拥有多项专利,既有已授予专利的也有正在申请的专利申请,它们描述了Google可以通过从网络上提取知识库事实而不是依靠人们将信息提交给诸如此类的知识来了解实体以及与实体相关的事实的方式。 Freebase。

我们看到Google展示了他们如何用Knowledge Vault替换他们的知识库,这将带来一套全新的提取方法,这些方法对他们的准确性有很高的信心。

It’很难确切说明Google可能依靠的方法,以及谷歌可能通过不再使用的专利(例如专利)引入的方法。但是,它没有’学习过去的一些历史和方法可能会很受伤。

I’在今天有关某项专利的博客中,描述了一种我们许多人已经假设Google多年来一直在使用的方法来识别对象或实体,属性以及与这些属性相匹配的值。

语境模式–标题和信息框

许多站点遵循某些实践,可帮助您轻松地从中了解知识库事实。维基百科就是一个例子,它在页面命名方面倾向于遵循一种特定的模式。例如,维基百科页面所基于的模板使用的标题模式如下:

[学科]–维基百科,免费百科全书,

这些页面有一个结构,可以轻松了解他们关心的内容,恰好适合其标题所说的内容。维基百科是’这样的唯一站点,您可以看到其他站点也做类似的事情。这种模式使从该站点提取事实变得容易。

这是维基百科上的George Washington页面的标题:

乔治华盛顿–维基百科,免费的百科全书

在维基百科 “Disambiguation” 页面上,其他具有相似名称的人链接到该页面,并且这些页面的标题遵循类似的模式。拥有Wikipedia歧义消除页面有助于Google区分实体,何时可能对他们的身份产生混淆。以下是其他页面(和实体)的一些标题:

乔治·科宾·华盛顿–维基百科,免费的百科全书
乔治·华盛顿·卡佛–维基百科,免费的百科全书
乔治·华盛顿(发明家)–维基百科,免费的百科全书
乔治·华盛顿(华盛顿先锋)–维基百科,免费的百科全书
乔治·华盛顿(利比里亚)–维基百科,免费的百科全书
乔治·托马斯·华盛顿–维基百科,免费的百科全书
乔治·华盛顿(棒球)–维基百科,免费的百科全书

Wikipedia pages often have tables or info boxes that contain attributes 有关 to the objects they are about, which consist of a specific label and a value. 这里’是乔治·华盛顿(George Washington)的作品:

Wikipedia信息框,其中包含有关George Washington的事实。

这里’s the patent

从文件中学习对象和事实
赵书彬发明
分配给Google
美国专利8,812,435
2014年8月19日授予
申请日期:2007年11月16日

抽象

一种用于从文档中学习对象和事实的系统,方法和计算机程序产品。选择源对象和源文档,并基于源对象和源文档识别标题模式和上下文模式。选择与标题模式和上下文模式匹配的一组文档。

对于所选集合中的每个文档,通过将标题模式和上下文模式应用于文档来标识名称和一个或多个事实。基于所标识的名称并与所标识的事实相关联来标识或创建对象。

本知识库事实过程中使用的组件和术语

进口商 –进口商从Wikipedia(和其他页面)中获取信息,以读取页面内容,从页面中提取事实,同时确定页面涵盖的主题(实体或实体),并将事实提取到“单个数据项。

看门人 –几种不同类型的管理员可能执行不同的功能,但是所有管理员都会处理导入程序提取的事实,包括数据清除,对象合并和事实归纳。纠正拼写和语法,翻译,规范化格式,删除重复的事实,删除不需要的事实等,都是不同管理员所执行的任务。

构建引擎 –构建和管理存储库。

服务引擎 –用于查询存储库的接口。它处理查询,对匹配的对象进行评分,然后将其返回给搜索者以索取信息。

事实资料库 存储有关实体的事实信息。每个实体或对象,现实世界或虚构的人,地方或事物)。将每个事实与一个对象相关联。通过在事实中包含该对象的对象ID,可以将任意数量的事实与单个对象关联。

属性和值 与特定实体关联的事实可能包括与它们关联的值的特定事实类型。对于乔治·华盛顿,我们有一个“Date of Birth”属性和值“Feb. 22, 1732.”

元组 –事实的数据结构可以由包含事实ID,属性,值和对象ID的信息元组表示。它可能包含更多信息,例如Web上的事实来源,存储事实的语言等等。

知识库事实指标

该专利告诉我们,事实的质量也可能与几个度量标准或指标相关联并包含在事实中。这些包括置信度和重要性度。置信度级别指示一个事实为真的可能性有多大,重要性级别指示该事实对对象有多重要,或者“事实对于理解与对象关联的实体有多重要。

事实包括来源的列表,这些来源包括事实,URL或Web地址或任何其他适当形式的标识和/或位置(例如,唯一的文档标识符),以及从中提取事实的来源。

同样,与事实相关的信息可能包括提取事实的进口商的代理类型。因此,此代理可能是仅从Wikipedia或IMDB或可能用作事实来源的其他网站导入事实的代理:

图1所示的事实。 2(d)包含一个代理字段,用于标识提取事实的进口商。例如,导入者可以是专门的导入者,其从特定来源(例如,特定网站或网站系列的页面)或来源类型(例如,以表格形式呈现事实信息的网页)中提取事实。 ),或从整个网络文档中的自由文本中提取事实的进口商,依此类推。

知识库事实包括名称事实和财产事实

这些是更专业的事实,名称事实是传达实体名称的事实。例如,美国专利商标局的名称事实可能是“PTO” and “USPTO”以及官方名称“美国专利商标局。”一个可能被指定为主要名称,其他可能被指定为次要名称。他们也可能被称为 对象的同义词.

属性事实通常提供有关对象的摘要信息,例如“比尔·克林顿(Bill Clinton)从1993年至2001年担任美国第42任总统。”

除了名称事实和属性事实之外,对象还可能具有其他特殊事实,例如传达用于对与对象关联的实体进行分类的类型或类别(例如,人,地点,电影,演员,组织等)的事实。在 识别实体类型和Search @Google的变形,我展示了Google如何根据可用的事实范围确定实体类型和实体类型。演员可能有以下事实:表演过的电影,表演过的电视节目,演员阵容中出现的戏剧。运动员的类​​型可能包括进行某种体育运动的统计记录事实和其他可能适合该类型的事实。

知识库事实带走

选择来源文件时,Google将优先处理来自知名网站(例如《大不列颠百科全书》在线网站)的文件。

其中,如果某个时期的某种事实需要像知识面板一样进行显示(此示例未出现在专利中),则搜索引擎可能会搜索代表该事实的实体和单词。它可能会尝试使用诸如“对象名称是否与文档标题匹配,以及其余搜索词是否与文档内容匹配。”

我将写一些其他的专利“related” patents 通过 the 美国专利商标局, and some of the concepts I cover will be similar.

I’撰写了一些有关命名实体的文章。这些是我想分享的:

上次更新时间为2019年6月26日。

分享是关怀!

关于12条想法“从诸如Wikipedia标题和信息框之类的来源中提取实体的知识库事实”

  1. 嗨,比尔,

    我需要更多时间来配置所有这些内容。

    但是很有帮助ðŸ™,

  2. 非常有趣的比尔–到了这一点,关于搜索的未来的唯一信息&我相信的SEO是专利。我的意思是,这确实很有意义。

    我发现最有趣的部分是置信度和重要性度。您是否认为,如果将其应用于通过Knowledge Vault网站进行的算法调整,则会获得可信度得分/重要性得分?

    您还认为所有这些都与知识图严格相关吗,还是他们也将其用于主要搜索算法评分?很酷。

  3. 听起来绝对不错!非常感谢您的投入。

    您认为这种逻辑在不同的市场中有所不同吗?我的意思是,知识库在例如德国?

    亨氏

  4. 嗨,比尔,

    您r recent posts highlighting Google’对实体的兴趣引起了我的兴趣,同时查看他们的研究论文也表明了他们在开发该领域方面的重视程度。

    粗略浏览他们在以下网站上发布的一些最新数据挖掘论文 http://research.google.com/pubs/DataMining.html 从今年开始,我已经发现了一些可能适用的方法,其中包括使用概率对与您所讨论的类似事实的置信度进行评分的方法。

  5. 有趣的东西,比尔– thanks!

    Google真的吗 更换 但是,使用Knowledge Vault的Knowledge Graph?

    Dong的分水岭纸中的第一张桌子 等。带有以下标题:“知识库比较。 KV,DeepDive,NELL和PROSPERA仅依赖提取,
    Freebase和KG依靠人工管理和结构化资源,而YAGO2使用这两种策略。”

    这表明KV和KG是独立的并且不是互斥的知识库。或者我应该阅读论文中描述的第二种KV提取方法– “graph-based priors” –作为将知识图实体(按原样)消化到知识库中的方法?我相信您对本文和您所引用的专利的阅读要比我自己的阅读要好,所以您会重视您的意见吗?

    同样,你说“从Google最近的公告中获悉,他们将用自己的Knowledge Vault取代Google知识库….” What “announcement” is this? I’我对董纸和 新科学家 piece that talks about the Knowledge Vault, but not with any Google 公告 on the subject. Thanks!

评论被关闭。