Finding Entity 名称 s in 谷歌’s 知识图

分享是关怀!

Most of us searchers and site owners and search engine optimizers are familiar with 谷歌’s Link Graph, and how 谷歌 uses the connections between websites to help in ranking pages on the Web. In part, 谷歌 looks at the 关联 of the content of a page compared to a query that a searcher enters in the search engine.

此外“relevance”, 谷歌 also uses the patented method of PageRank, in which the quality and quantity of links pointed to a page are used as a proxy for the quality of the page being linked to. 的 higher the quality of a page (and the higher PageRank it possesses), the more PageRank it likely passes along.

页面之间的链接,来自合理的冲浪者专利

链接图 is one example of how 谷歌 ranks and measures and possibly sorts web pages. Another that 谷歌 might look at is the 注意图 – how 谷歌 might use topics and concepts that may be searched upon frequently to change rankings of pages based upon freshness and hot topics.

Another graph that 谷歌 has been looking at is the 社会图, and who the people are who might be connected to you in 谷歌 Plus to show you annotations when you search for something that these connections of yours may have +1’自己或共享,并且该结果与您使用的查询字词相关。

这些页面或结果可能不是您在Web上查询的最相关的结果,但其想法是,如果您认为某人有意义,那么这些页面或结果’重新连接,这对您也可能有意义。

When I wrote about the newly granted 谷歌 patent Learning synonymous object 名称s from anchor texts, 的 focus of my post was upon 谷歌’s use of their 知识图,以及他们如何使用数据管理员来从Web提取有关命名实体的事实–特定的人,地方或事物,无论是真实的还是虚构的,以提供其他实体名称。

Many entities are known 通过 more than one 名称, including businesses, brands, product lines, and even people.

的 patent itself provides a lot of details on how it might attempt to identify additional entity 名称s in anchor text pointing to a page that is about that entity. On its surface, this might sound a little like how 谷歌’的Web爬网和索引程序可能会识别并使用指向页面的锚文本,就好像它是关于该页面的元数据一样。

的 role that 谷歌 has given to Anchor Text over the years should not be understated. In the early Stanford University whitepaper about the search engine, 大型超文本Web搜索引擎的剖析。它 ’可能值得看一下该论文对Anchor Text的评价,并与将其用作向链接所指向的实体添加新名称的一种方式进行比较。该文件告诉我们:

链接的文本在我们的搜索引擎中得到了特殊处理。大多数搜索引擎将链接的文本与链接所在的页面相关联。另外,我们将其与链接指向的页面相关联。这具有几个优点。

  • 首先,锚通常提供比网页本身更准确的网页描述。
  • 其次,对于那些无法被基于文本的搜索引擎索引的文档,例如图像,程序和数据库,可能存在锚点。

这样就可以返回尚未被爬网的网页。请注意,尚未爬网的页面可能会引起问题,因为在返回给用户之前,从未对其进行过有效性检查。在这种情况下,搜索引擎甚至可以返回一个页面,该页面实际上从未存在过,但是具有指向该页面的超链接。但是,可以对结果进行排序,因此很少发生此特定问题。

本文从这篇文章开始指向使用锚文本来更多地了解带有链接指向的页面。正如我在上一篇文章中提到的那样’是Google的网络抓取版本’用来索引Web上的页面,而不是用来执行多种功能来尝试索引Web上的对象和实体并收集有关它们的事实的数据管理员和提取器。

专利是’有关使用锚文本来描述链接指向的页面的说明,而是’有关使用链接资源中的链接查找页面可能涉及的实体的替代名称。

数据看门人和唯一ID

如果您按照我上一篇文章中的链接访问了我’关于数据管理员,您可能对它们是个好主意。

给其他人的快速摘要。

谷歌从网络上的页面中提取信息,并将其置于数据管理员的面前。存在这些看门人来处理已提取的事实。一些看门人摆脱了重复的事实,一些合并了非常相似的事实(例如一页上某人的生日“December”而同一人在另一页上是“Dec.”一些事实可能会被完全删除,例如与色情内容有关的事实。管理员也可能参与翻译,压缩,拼写或语法纠正。

这些看门人清理有关特定实体的事实。他们不是’索引网页,尽管它们可能会使用找到事实的URL作为该事实的原始地址。它们所索引的是与单个实体相关联的事实的集合。该专利告诉我们,此过程中可以使用的一种方法是为每个实体创建一个特定的唯一ID。

Remember Eric Schmidt stating that 谷歌 Plus wasn’一个社交网络,却是一个 鉴定服务? 的 numbers in the URLs on 谷歌 accounts are unique IDs.

几周前,当时TechCrunch之类的技术博客 散布谣言 that 谷歌+ was going to be discontinued because Vic Gundotra was leaving 谷歌, they must not have been aware of how 谷歌+ tied in so well to this idea of unique IDs for 名称d entities, and how 谷歌+ allowed those to be created for authors, who are also 名称d entities in 谷歌’在其知识图中的知识索引。

谷歌+ ties into 谷歌 on a much deeper level than whether or not a single individual managed the development of 谷歌+ for a while. 的 knowledge graph relies upon unique IDS for entities, 谷歌’s Agent Rank (the roots of 谷歌’在登录搜索中的社交图以及将来可能的作者排名)也依赖于作者的唯一ID。

关于事实和对象的信息收集

谷歌’对象存储库存储有关实体的事实信息,这些信息是从Web上的大量文档中提取的。此存储库中的每个事实都恰好与一个对象相关联,并且在该关联的一种实现中,每个对象都有唯一的ID。因此,对象是由一组具有相同关联对象ID的事实定义的。

请记住,当此知识图系统收集有关实体的事实时,它们至少收集两个不同的部分–属性和值。因此,当收集到有关乔治华盛顿的事实时,可能具有“date of birth” and the 值 of “February 22, 1732.”因此事实可能包括(1)事实ID,(2)属性,(3)值和(4)对象ID。一个对象可能具有与之相关的数百个事实,并且“value”可能很长,例如网页(甚至一本书)的全文。

可能还会收集一些有关特定对象的事实的其他信息,例如

  • 用于陈述事实的语言(英语等)
  • How important the fact is (its 值 to undertanding the entity)
  • 事实的来源(例如,URL)
  • A confidence 值 for the fact (how likely it is correct), and
  • 其他

名称 Facts are Not HyperText 关联

专利的主要重点是如何“Name”事实可以从指向页面的锚文本中识别出来。我们知道Googlebot专注于收集页面上的内容和信息,以逐页而不是逐个对象地对内容进行索引。 谷歌确实会查看指向页面的锚文本,以告诉所指向的页面是关于什么的。这些 名称-fact data janitors 正在寻求以有关实体的事实的形式了解更多信息。名称事实包括以下属性“name” and a 值, which is the 名称 of the associated entity.

A 名称 fact for “Spain” might be its official 名称, the “Kingdom of 西班牙.”

美国专利商标局可能具有传达代理机构的相关实体名称事实’s acronyms “PTO” and “USPTO”以及官方名称“美国专利商标局。”

如果实体或对象具有多个关联的名称事实,则可以隐式或显式地将名称事实之一指定为主要名称,而将其他名称事实指定为辅助名称。与对象关联的这些名称事实也称为对象的同义词。

Finding Synonymous Entity 名称 s

Here are steps involved in finding Synonymous Entity 名称 s using data janitors:

1)。从存储库中识别出代表(或描述)实体的对象。它可以通过唯一的对象ID进行标识,并可以通过与该对象ID相关联的事实集合进行定义。

2)存储库可能包含与对象关联的多个源文档。这些是从中提取有关该对象的一个​​或多个事实的文档。

3)检索与对象关联的事实之后,系统可以根据检索到的事实的源字段来识别与对象关联的源文档列表。一个事实可以有多个源文档。

4)可能会检查源文档,并且某些文档可能会从列表中省略,特别是如果它们涵盖了可能与多个实体关联的许多对象,例如博客。

5)对于每个原始文档,都可以标识链接到它们的文档。

6) Only the links to the source documents are reviewed to see if they contain 名称 facts worth adding to the repository.

锚定同义词

指向链接文档中源文档的锚文本用于生成同义词候选集(也称为““anchor synset”)作为对象名称。

在此阶段,将删除与关联的源文档的主题无关的锚文本,例如“Click here!”或者通过删除锚文本中与关联源文档的主题无关的部分来清理其余锚文本。例如,链接的锚文本可能会说“进一步了解Big Blue”并将其链接到IBM网站。的“Find out more about”可能会删除该部分,并且将组成名称的名词保留为名称事实。

在此过程中,某些文本可能会从锚文本中删除,因为该文本会出现在黑名单中,例如“here,” or “click 这里,” or “download.”

还可以采取其他步骤,以在处理之前标准化锚文本的格式:

  • 删除标点符号,例如删除字符串中的逗号
  • 将字符串中的大写字符转换为相应的小写字符,例如“America” to “america,” and
  • 停用词删除,例如删除停用词,例如“the,” “a,” and “of” from a string

A white list might also be used, and could involve a person approving some 名称s, or extracted 名称s from something like a telephone directory.

候选同义词名称的出现频率也可能会被检查。如果很少出现的名称很少出现,则可以认为它们是拼写错误的单词。

Very frequently occurring words might also be disqualified as entity 名称s, such as:

  • “the company,”
  • “home page,” and
  • “click here.”

当考虑到源文档链接中的锚文本时,PageRank也可能会发挥作用,并考虑相关链接文档的质量。 PageRank越高,页面(至少是页面的一部分)上的锚文本被视为候选同义实体名称的可能性就越大。

Capitalization of each of the words in the candidate synonymous entity 名称 is another signal that might be looked at.

Assigning Entity 名称 s Facts

的 se are the steps that can lead up to the use of anchor text to identify alternative 名称s or synonymous 名称s for an entity.

专利告诉我们’重要的是要注意,此过程与语言无关,可以使用任何语言。

Entity 名称 s Take Aways

我之所以写这篇专利是因为它描述了数据管理员如何使用指向实体页面的锚文本来帮助查找该实体的其他名称。我写这本书的原因是,它很好地展示了这种知识图事实提取与我们在谈论在Web上发现的事物的索引时经常谈论的Web爬网和索引有何不同。

Web爬网是关于对网页进行爬网,索引和排名。使用数据管理员的数据提取与索引Web对象(包括命名实体)有关。提取确实收集了诸如事实之类的URL之类的信息,但是’关于构建知识图和识别与实体相关联的事实的更多信息。

Both types of indexing are important. If you have a client with a business brand or product line or professional career that would benefit from better coverage in 谷歌’的知识图,了解数据管理员将如何工作可能对您有所帮助。

I’ve written a few posts about 名称d entities. 的 se are some that I wanted to share:

上次更新时间为2019年6月26日。

分享是关怀!

关于4个想法“Finding Entity 名称 s in 谷歌’s 知识图”

  1. 谢谢,很好的介绍。收集所有这些实体是验证大数据的另一步骤。将来拥有地址的所有人类及其关系被归类为独特的对象,您可以在其中为每个人提供不同目的的分数,主要用于当今的经济。在像中国这样的其他国家,也许是出于压迫,因为不仅Google掌握了全部知识。我看过一个关于路透社如何在伦敦最大的交易系统之一-大型交易商(银行,对冲基金,…)可以通过这些计算机算法在毫秒内变富。

  2. 我想知道他们是否采用相同的方法来理解关键字丰富的锚文本,特别是:

    “删除与相关源文档主题无关的锚文本,例如“单击此处!”,或通过删除与文本主题无关的部分锚文本来清理其余的锚文本。关联的源文档。“

  3. 很棒的比尔,以这种方式找到对象的同义词,让我记住了主题敏感页面排名背后的人的工作。这也让我认为,不仅锚文本,而且锚窗口也可以用来标识对象或实体的同义词。

    我认为,有关一个实体的可用数据数量是一个关键点,以使基于知识的搜索有效,因此我想问问,对于像“products”。与像巴拉克·奥巴马(Barack Obama)这样的著名人物相比,不仅数据量(在单个产品级别上)是法律,而且可以收集多少文档来收集关于不受欢迎对象的正确事实的可信性?

评论被关闭。