识别实体类型和Search @Google的变形

分享是关怀!

万维网是巨大的信息资源。同时,它非常分散。

A particular 类型 of data such as restaurant lists may be scattered across thousands of independent information sources in many different formats. In this paper, we consider the problem of extracting a relation for such a data 类型 from all of these sources automatically.

我们提出了一种利用模式和关系集之间的对偶关系以从小样本开始发展目标关系的技术。为了测试我们的技术,我们使用它从万维网中提取(作者,标题)对的关系。

谢尔盖·布林, 从万维网上提取模式和关系(pdf),斯坦福大学,1999年

在亚历山大的鱼雷工厂中,鱼雷为船尾
实体变更–鱼雷成为艺术品,搜索引擎成为知识库。

Google的早期成功之一’s search is how 网页排名 影响了响应查询的搜索结果的顺序。 Google创始人劳伦斯·佩奇(Lawrence Page)以PageRank的发明而著称,但是大约在同一时间,谢尔盖·布林(Sergey Brin)正在研究另一种方法来捕获和索引Web上涉及实体和知识的内容。

本文开头引用的论文包含的内容与Brin在2000年向USPTO提交的临时专利基本相同,但他最终对其进行了重写,然后在2012年提交了4项续续专利,直到他提交了最新专利。版本 从数据库中提取信息。专利版本的摘要为:

提供了用于从数据库提取信息的技术。在诸如Web之类的数据库中搜索信息元组的出现。分析在数据库中找到的信息元组的出现,以识别存储信息元组的模式。然后可以使用该模式从数据库中提取其他元组信息。如果需要,可以使用其他信息元组重复此过程。

Sergey Brins关于信息提取的专利的屏幕截图

搜索@Google的变形

有迹象表明,这就是搜索和SEO的方向,语义Web在其中扮演着越来越重要的角色。一世’多年来一直在撰写有关Google等主题的文章’s 收购Meta-Web 和Freebase,以及有关Google如何将网络用作数据库来识别和消除具有相同名称的不同实体的最新信息, Finding Entities: A Tale of 两个迈克尔·杰克逊s.

Google将以多种方式改变他们在网络上收集和分发信息的方式。但是,可以将其视为进化。一世’我不是说SEO死了,而是说Sergey Brin’随着Google越来越擅长,如何从表示关系的元组中提取Web信息的愿景可能会变得越来越普遍。

Google对此做得越来越好。

上周一,我问了一个问题,你喜欢哪个名字, 语义搜索还是语义SEO?,同时分享了Barbara Starr问我是否有兴趣加入她的演讲后,我和Barbara Starr共同整理的关于语义SEO的教程演示文稿的链接。

I’m glad I did –它使我有机会听到许多其他在语义Web上工作的人的信息,包括搜索工程师以及在现场提供服务和工具的人。它让我有机会听到芭芭拉’的想法(强烈建议)。搜索引擎中有很多人,他们在说一些有趣的话。在语义技术和商务会议成立十周年之际,出现了一些迹象。

如果Google从明天的搜索引擎变成了知识引擎,这会让您感到惊讶吗?

实体类型分配

我们知道,即使没有页面架构之类的标记,搜索引擎在Web上识别实体并识别共享名称的不同实体也会有多么困难。搜索引擎或知识库面临的另一个挑战是通过为实体分配实体来定义实体“type”.

分配给实体的实体类型可以告诉我们有关属性或属性以及与它们关联的值,这有助于我们进一步了解它们。例如,对于演员来说,您可能想收集有关在电影以及电视和舞台上扮演的角色和角色的信息。您可能希望收集其他功能,例如与他们一起制作的其他演员,在哪里演出以及在哪种媒体上演出。他们是从谁那里开始的?他们可能获得了哪些奖项?

Entities with 类型s and the properties that gow with those.
When 类型s are defined for entities, those determine what attributes are collected for each

实体分配还指示其他信息,例如,当实体类型为“spouse,”我们会自动了解到还有另一个与之相关的实体–他们是配偶的人。如果实体是作者,则存在相关的实体,例如书籍或文章,博客文章或电影剧本。

Google was granted a patent in 2011 that describes the assignment of entity 类型s from models about those entities, with facts about them placed in fact repositories, and using these models to assign entity 类型s to 目的 s of unknown entity 类型s in the fact repository.

信息提取可以用于以事实的形式自动识别和提取信息,并且可以在各种来源(例如网页)上执行以提取事实数据。

该专利是:

Entity 类型 assignment
由Farhan Shamsi,Alex Kehlenbeck,David Vespe和Nemanja Petrovic发明
分配给Google
美国专利7,970,766
2011年6月28日授予
归档:2007年7月23日

抽象

存储库包含对象,包括有关实体的事实。对象可以是已知或未知的实体类型。实体类型分配引擎将实体类型分配给未知实体类型的对象。特征生成模块生成一组特征,这些特征描述存储库中每个对象所包含的事实。实体类型模型模块基于为对象子集生成的特征集生成实体类型模型。实体类型模型模块基于与已知实体类型的对象相关联的特征集生成实体类型模型,例如分类器或生成模型。

实体类型分配模块基于与未知实体类型的对象和实体类型模型相关联的特征集生成值。此值指示未知实体类型的对象是否属于已知实体类型。对象更新模块将与已知实体类型相关联的对象存储在存储库中。

虽然该专利是’t new, it’在描述Google如何收集有关其在网络上找到并随后试图理解的实体的信息方面非常重要。要将有关实体的事实集合扩展到知识库中,需要一致地定义那些对象和事实。

我写了关于该专利的博客,因为它感觉就像我之后“Two Michael Jackson’s post.”我也想让你看看“信息提取”关于网络上的实体,而不是“crawling”自那以来的网页数量’SEO演变的一部分。

实体类型识别问题

Sometimes entity 类型 information might be unavailable on pages. Don’不要让这种情况发生在您和您的页面上。

有时一个实体可能会与另一个实体共享名称,例如,音乐家Peter Gabriel命名了他的前四张专辑“Peter Gabriel.”

如果要以自己的名字命名前四个音乐收藏,人们可能会不清楚他们何时写的是哪一个。

听众,读者以及试图将网页信息转换为“Knowledge.”

有关实体,实体类型分配及其事实存储库的一些事实

存储库包含事实,每个事实都包含该事实的唯一标识符,例如事实ID。的“object”事实也可以被赋予唯一的对象ID。

关于实体的事实至少包括属性和值。例如,与表示乔治华盛顿的对象相关联的事实可能包括以下属性:“date of birth” and a value of “February 22, 1732.”

如上所述,每个事实与标识该事实描述的对象的对象ID相关联。因此,与同一实体(例如George Washington)关联的每个事实都将具有相同的对象ID。

The number of facts associated with an 目的 may be unlimited –可能有数百个。

与事实相关的价值,例如有关中国经济的事实,可能包含很多信息。

In addition to facts about specific 目的 s/or entities, the fact repository may contain facts about the representation of the fact on the Web itself such as:

  • 用于陈述事实的语言(英语等)
  • 事实的重要性
  • 事实来源
  • 事实的置信度
  • 依此类推

This entity 类型 assignment engine attempts to improve the quality of knowledge contained within the fact repository 通过 assigning entity 类型s to 目的 s with unknown entity 类型s.

当一个实体担任一个以上角色或在不同时期担任多个角色时,一个实体可以具有多个实体类型(多种不冲突的实体类型)。例如,阿诺德·施瓦辛格(Arnold Schwarzenegger)是演员实体类型,政客实体类型和举重运动员实体类型,可以同时完成所有这些操作,但没有’通常,他自己是所有三种实体类型的混合体。

实体模型可以为实体建立一次,但是通常会在一段时间内重建。

一些实体类型是二进制的,因为在实体中某种类型的实体是,或者不是。菲多(Fido)可能是一条狗,但作为二进制实体类型的另一种选择是“non-dog.”多类实体也是可能的,一个人可能同时是两种不同的实体类型,例如Arnold Schwarzenegger同时是商人和演员。

The patent describes these assignments of entity 类型s as either unsupervised or semi-supervised approaches. If the facts used to assign an entity 类型 are weak or conflict in some way, an assignment might not be made.

该专利提供了更多细节和几个其他示例。

This patent is a couple of years old, and while it describes an automated way to assign an entity 类型, there are methods from places such as Schema.org where site owners could use markup to assign entity 类型s, or places such as freebase.com where a person could assign one.

或诸如 Wavii开发的开放语言提取 或可能涉及其他提取方法。

分享是关怀!

5个想法“识别实体类型和Search @Google的变形”

  1. 比尔,如果这个问题过于简单,请原谅我。

    似乎Google知道他们想去哪里搜索。什么’s holding them back?

    他们是否已经弄清楚了并且正在慢慢过渡?
    是否存在仍需要解决的概念性问题?
    这是机器问题(即计算能力)吗?
    或者是别的什么?

  2. I’我对Google的想法很感兴趣“knowledge engine.” Isn’搜索者真正想要的是什么?我的意思是答案或知识。但是Google与现在有何不同?我认为结果将是准确,更明智和有用的。使用这些ID和实体,知识会更加真实吗?我认为置信度值和来源是计算的一部分,这将有所帮助。

  3. 我们正在尝试从产品描述中使用电子商务中的属性提取,这是一个非常明确/有限的问题。但考虑到人们输入产品详细信息的方式,尤其是。在ebay和其他网站上,您开始获得不具备’t make any sense.

    我们收到了太多的误报。

    看到这种方法很有趣。会尝试一下!

  4. 嗨,比尔,
    精彩的文章我可以看到,当Google知道事实之后,它将如何使网络变得更好,并可以使用它来改善最终用户的体验。

    在某些情况下,它将被视为重复的内容具有合法性,因为现在它被视为事实和诸如此类的东西

    当您提到彼得·加布里埃尔(Peter Gabriel)时,他将自己命名为前四张专辑。

    我想到了乔治·福尔曼(George Foreman)命名了他的所有男子女乔治和一个女孩乔治特(Georgette)看看我在Google上搜索时发生了什么“George Foreman’s Children’s names”

    所以有人在乔治·福尔曼(George Foreman)上写内容’如果他们提供不正确的信息,则他们的家庭或孩子的排名将被降低,并且如果他们说的是事实并且当然包括原始内容,那么他​​们将不会因为重复的内容而受到惩罚。

    (只不过是事实而已)

    无论如何,我认为我正在做某事,但是由于我在这里已读过的内容,并且因为我不想做任何会冒犯您或被认为是错误的事情,因此我想先征得您的同意,然后再完成并发表我的理论。去做。

    我所写的都是关于您正在谈论的例子的。
    You can see a photograph of 乔治·福尔曼 if 类型 into Google “George Foreman’s Children’s names”
    与您从与人有关的事实和一些重大差异中获得的结果相比,这些差异仍将像您在此处看到的那样无所不包。

    http://tomzickell.com/reading-identity-types-on-seo-by-the-sea/

    如果您有任何问题,请告诉我,我会立即删除。

    尊敬,
    汤玛士

评论被关闭。