实体同义词
当Google将网络编入索引时,’考虑运行两种不同方法或并行运行的方法的搜索引擎通常很方便。其中之一涉及对网络上的页面(以及图像,视频,新闻,播客和其他文档)进行爬网,索引和排名。
的other approach doesn’不仅要查看页面,也要索引它在Web上找到的对象的索引,或者我们通常所说的命名实体,即特定的人,地点或事物–真实的或虚构的。我们看到了第二种爬网,通常称为事实提取,并看到诸如知识面板结果之类的提取结果,甚至是诸如Google之类的东西’s OneBox Question & Answer results.
当SEO谈论Google及其在网络上对网页进行爬网和编制索引的程序时,我们通常将这些爬网程序称为机器人或蜘蛛甚至Googlebot,’这些爬网程序区别很大。并不是上面的那种机器人(这是Google的新突破),但是它’是时候开始对Googlebot有所不同了。
I’既介绍了两种类型的爬网,又介绍了第二种类型的爬网和索引’一直把那些帖子放在我的 事实提取 and 知识图 类别。 (我添加了“Knowledge Graphs”一两年前的一部分,因为这似乎很有意义。)
通过授予事实提取爬虫之一更多地关注链接和锚定文本的信息,以了解有关这些链接中可能引用的实体的更多信息,包括Google (同义词)这些实体的名称。有关实体的页面链接中的文本可能包含实体同义词,这些实体同义词可以描述那些页面上的实体。这些事实提取爬虫已被Google称为“janitors”过去,这是我的一些帖子’ve written that talks more about how these 看门人 work:
- 2007年6月29日– 谷歌 Janitors Clean Up Facts on the Web
- 2007年8月5日– 谷歌 on the Extraction and Visualization of Facts
- 2013年1月11日– Building 谷歌’的知识库和标识网页中的位置
如果您想要更多,请点击上方的类别链接以“Fact Extraction”。几年前,谷歌从一家名为MetaWeb的公司获得了专利。我写了这篇文章 谷歌 Gets Smarter with Named Entities: Acquires 元Web. 的newly granted patent talks about how it uses a feature of one of 元Web’s patents –为每个命名实体分配一个唯一的ID,以便同一特定实体有多个名称,每个名称都可以与该唯一的ID相关联。
This 实体同义词 patent describes how 谷歌 uses 看门人 to identify new names for an entity, and assigns them a unique ID so that 谷歌 understands that the names are synonyms for the same entities. An example of an entity in the patent that has multiple names is “国际商业机器公司” otherwise known as “IBM” or “Big Blue”.
的entity synonyms patent is:
从锚文本中学习同义词对象名称
Krzysztof Czuba,Jonathan T. Betz,Jeffrey C.Reynar发明
Assigned to 谷歌
美国专利8,738,643
2014年5月27日授予
归档:2007年8月2日
抽象
A repository contains objects representing entities. 的objects also include facts about the represented entities. 的facts are derived from source documents.
对象的实体同义词可以通过以下方式确定:
- 标识源文档,从中导出对象所代表实体的一个或多个事实,
- 标识通过超链接链接到源文档的多个链接文档,每个超链接都具有锚文本,
- 处理多个链接文档中的锚文本,以生成对象所代表的实体的同义词候选者的集合,以及
- 从同义词候选者集合中为对象所代表的实体选择一个同义词名称。
I’我的下一篇文章将把实体同义词专利背后的过程分解为细节,但是我’d建议您着重事实提取,以及Googlebot的想法’事实证明堂兄表亲是“janitors,” and there are multiple kinds of 看门人, including some that look at the anchor text in links pointing to pages about entities to find 实体同义词.
I’撰写了一些有关命名实体的文章。这些是我想分享的:
- 您是否有用于营销网站的命名实体策略?
- 我如何爱实体并开始进行实体优化
- How 谷歌 Uses Named Entity Disambiguation for Entities with the Same Names
- 如何将命名实体连接到趋势主题以解决实时搜索结果
- Not Brands but Entities: 的Influence of Named Entities on 谷歌 and Yahoo Search Results
- 如何在搜索中使用知识库实体
- Finding Entity Names in 谷歌’s Knowledge Graph
- 谷歌 Gets Smarter with Named Entities: Acquires 元Web
- 与网站和相关实体的实体关联
- How 谷歌 Might Identify 实体同义词 Using Anchor Text
- 从诸如Wikipedia标题和信息框之类的来源中提取实体的事实
- 从网页和查询日志中提取语义类和相应的实例
- How 谷歌 May Identify Main Entities
- How 谷歌’s Knowledge Graph Updates Itself 通过 Answering Questions
上次更新时间为2019年6月26日。
I’m trying to get my head around exactly where the 知识图 看门人 would be extracting facts. Are they working with 谷歌’的索引?还是上网?
This might be naive, but if they are on the Web, how do you see them working with Nofollow (particularly thinking of the KG favorite – Wikipedia)?
第一次来。。很惊讶地看到您在2007年写了一篇有关看门人的文章!
Interesting 文章, but it is something that you expect 谷歌 would do to enrich their data.
昨天找到了Microsoft的出版物, http://research.microsoft.com/apps/pubs/?id=205509 在几乎没有可用信息的情况下链接实体(在这种情况下为人)。
有趣的东西,但我同意你的看法’d希望Google这样做可以使他们的数据更好地工作。一世’我期望Panda 4.0在关键字使用方面做出一些大的改变(除了抨击eBay以外)。
嗨Nate,
的different kinds of Janitors would be extracting facts from web sites and web pages, like web indexing crawlers do, though it’某些不同类型的搜寻器可能会处理从Google服务器上的页面副本中找到的内容,而不是连接到这些网站本身。
我不’不知道我们能不能打电话给他们“knowledge graph” 看门人, since they work to collect data about named entities not only for the 知识图, but also to provide answers and results for 谷歌 OneBox type results as well, such as definitions, weather updates, sports scores and schedules, Q&(问答)结果,以及其他。
的“nofollow”链接rel属性值用于告诉搜索引擎网页所有者是否希望通过链接传递PageRank和超文本相关性。如果Google希望将其应用到使用锚文本作为实体替代名称的来源,它会’他们可能会做的事,但他们没有’不一定要尊重它。一世’我不确定我是否会为此担心太多。
嗨Jam-Willem,
我认为您昨天可能已经在Twitter上分享了该链接到Microsoft的文章,并且我可能已经通过有关实体链接的趣味性的方式回应了您的推文。考虑到我正在撰写这篇文章,时机非常好。一世’d绝对建议人们也阅读该论文
到目前为止,我写的关于该专利的书是Google希望做的,以丰富他们的数据,但我之所以分享是因为’并不是很明显,他们正在做这个实体,人们正在写它–我会怀疑,大多数关注SEO的博客,文章站点和论坛对Google Janitor及其工作方式几乎一无所知。我不’t have to suspect –我只需要做一点搜索。它’s not that obvious.
嗨,亚历克斯
我不’认为您将不得不期望Google会做这样的事情来改善他们的数据。我怀疑大多数人不会’t,甚至是从事SEO的人。 ðŸ™,
您好JithinC
谷歌 started having patents granted around that time (2007) that discussed data 看门人, so I have more then a couple of back then. 🙂
有趣的东西,比尔–感谢您的初步分析!
“I don’不知道我们能不能打电话给他们‘knowledge graph’ 看门人, since they work to collect data about named entities not only for the 知识图…”
但是,您是否认为我们可以通过打电话给他们逃脱“entity 看门人”?无论有关实体是否命名,我都可以’不能想象Google会根据要显示有关该实体的位置数据来将同一实体区分为不同的URI。
我不’t think it’会太长(如果我们还没有’t已经到达该点),将不可能将“知识图”结果与使用基于实体的数据的任何其他类型的结果区分开。
无疑,借助Hummingbird,Google现在可以使用查询实体提取来提供多种类型的结果。例如,虽然“深入文章”的结果在多个方面与随附的“知识图”垂直记录有很大不同,但’看深度文章结果 除非 谷歌能够将文本查询重新生成为实体引用–几乎可以肯定地消除了与知识图结果所使用的URI相同的歧义。
震撼整个SEO世界的两个重要更新–
1.哼哼鸟[着重长尾搜索]
2.知识图[提取“Delicate”+真实信息]
喜欢阅读您的帖子! ðŸ™,
出色的分析。特别,“搜索引擎运行两种不同的方法或方法”-感谢分享这些有价值的东西。此外,即使在今天,您2007年的帖子也很有趣。
你怎么做呢。整个分析是如此出色。感谢您提供的信息。