How 谷歌 Might Identify 实体同义词 Using Anchor Text

分享是关怀!

实体同义词

当Google将网络编入索引时,’考虑运行两种不同方法或并行运行的方法的搜索引擎通常很方便。其中之一涉及对网络上的页面(以及图像,视频,新闻,播客和其他文档)进行爬网,索引和排名。

的other approach doesn’不仅要查看页面,也要索引它在Web上找到的对象的索引,或者我们通常所说的命名实体,即特定的人,地点或事物–真实的或虚构的。我们看到了第二种爬网,通常称为事实提取,并看到诸如知识面板结果之类的提取结果,甚至是诸如Google之类的东西’s OneBox Question & Answer results.

当SEO谈论Google及其在网络上对网页进行爬网和编制索引的程序时,我们通常将这些爬网程序称为机器人或蜘蛛甚至Googlebot,’这些爬网程序区别很大。并不是上面的那种机器人(这是Google的新突破),但是它’是时候开始对Googlebot有所不同了。

I’既介绍了两种类型的爬网,又介绍了第二种类型的爬网和索引’一直把那些帖子放在我的 事实提取 and 知识图 类别。 (我添加了“Knowledge Graphs”一两年前的一部分,因为这似乎很有意义。)

通过授予事实提取爬虫之一更多地关注链接和锚定文本的信息,以了解有关这些链接中可能引用的实体的更多信息,包括Google (同义词)这些实体的名称。有关实体的页面链接中的文本可能包含实体同义词,这些实体同义词可以描述那些页面上的实体。这些事实提取爬虫已被Google称为“janitors”过去,这是我的一些帖子’ve written that talks more about how these 看门人 work:

如果您想要更多,请点击上方的类别链接以“Fact Extraction”。几年前,谷歌从一家名为MetaWeb的公司获得了专利。我写了这篇文章 谷歌 Gets Smarter with Named Entities: Acquires 元Web. 的newly granted patent talks about how it uses a feature of one of 元Web’s patents –为每个命名实体分配一个唯一的ID,以便同一特定实体有多个名称,每个名称都可以与该唯一的ID相关联。

This 实体同义词 patent describes how 谷歌 uses 看门人 to identify new names for an entity, and assigns them a unique ID so that 谷歌 understands that the names are synonyms for the same entities. An example of an entity in the patent that has multiple names is “国际商业机器公司” otherwise known as “IBM” or “Big Blue”.

的knowledge panel that 谷歌 shows for IBM公司

的entity synonyms patent is:

从锚文本中学习同义词对象名称
Krzysztof Czuba,Jonathan T. Betz,Jeffrey C.Reynar发明
Assigned to 谷歌
美国专利8,738,643
2014年5月27日授予
归档:2007年8月2日

抽象

A repository contains objects representing entities. 的objects also include facts about the represented entities. 的facts are derived from source documents.

对象的实体同义词可以通过以下方式确定:

  • 标识源文档,从中导出对象所代表实体的一个或多个事实,
  • 标识通过超链接链接到源文档的多个链接文档,每个超链接都具有锚文本,
  • 处理多个链接文档中的锚文本,以生成对象所代表的实体的同义词候选者的集合,以及
  • 从同义词候选者集合中为对象所代表的实体选择一个同义词名称。

I’我的下一篇文章将把实体同义词专利背后的过程分解为细节,但是我’d建议您着重事实提取,以及Googlebot的想法’事实证明堂兄表亲是“janitors,” and there are multiple kinds of 看门人, including some that look at the anchor text in links pointing to pages about entities to find 实体同义词.

I’撰写了一些有关命名实体的文章。这些是我想分享的:

上次更新时间为2019年6月26日。

分享是关怀!

关于12条想法“How 谷歌 Might Identify 实体同义词 Using Anchor Text”

  1. I’m trying to get my head around exactly where the 知识图 看门人 would be extracting facts. Are they working with 谷歌’的索引?还是上网?

    This might be naive, but if they are on the Web, how do you see them working with Nofollow (particularly thinking of the KG favorite – Wikipedia)?

  2. 有趣的东西,但我同意你的看法’d希望Google这样做可以使他们的数据更好地工作。一世’我期望Panda 4.0在关键字使用方面做出一些大的改变(除了抨击eBay以外)。

  3. 有趣的东西,比尔–感谢您的初步分析!

    “I don’不知道我们能不能打电话给他们‘knowledge graph’ 看门人, since they work to collect data about named entities not only for the 知识图…”

    但是,您是否认为我们可以通过打电话给他们逃脱“entity 看门人”?无论有关实体是否命名,我都可以’不能想象Google会根据要显示有关该实体的位置数据来将同一实体区分为不同的URI。

    我不’t think it’会太长(如果我们还没有’t已经到达该点),将不可能将“知识图”结果与使用基于实体的数据的任何其他类型的结果区分开。

    无疑,借助Hummingbird,Google现在可以使用查询实体提取来提供多种类型的结果。例如,虽然“深入文章”的结果在多个方面与随附的“知识图”垂直记录有很大不同,但’看深度文章结果 除非 谷歌能够将文本查询重新生成为实体引用–几乎可以肯定地消除了与知识图结果所使用的URI相同的歧义。

  4. 震撼整个SEO世界的两个重要更新–
    1.哼哼鸟[着重长尾搜索]
    2.知识图[提取“Delicate”+真实信息]

    喜欢阅读您的帖子! ðŸ™,

  5. 出色的分析。特别,“搜索引擎运行两种不同的方法或方法”-感谢分享这些有价值的东西。此外,即使在今天,您2007年的帖子也很有趣。

评论被关闭。