Google如何查找已知的实体条款

分享是关怀!

Google查找与实体相关联的术语和短语,这些术语和短语可被视为企业,位置和其他实体的兴趣术语。这些字词可能会影响这些实体在搜索结果和知识面板中显示的内容。将其视为不断增长的概念,实体,实体属性以及在蜂鸟之后塑造新Google的关键字的知识库的一部分。在确定特定实体所知名的事物时,语义学就发挥了作用。

弗吉尼亚州沃伦顿的红色卡车面包店

For example, the Warrenton, Virginia, Red Truck Bakery (local to me) is 闻名:

  • 品尝当地烤咖啡
  • 包括当地农产品的烘焙食品
  • 停在他们地段的一辆红色卡车,最初属于汤米·希尔菲格
  • 由美国中央情报局(CIA)培训的厨师,拥有这个地方,并长期担任史密森尼(Smithsonian)艺术总监
  • 一个共同的农民’的桌子上,市民在这里共享早餐和午餐。

What are you 闻名? What are the things that you write about or sell online 闻名? Or the celebrities that line the inside of weekly tabloids, the figures that have shaped the timeline of our history, or the businesses that fill the yellow pages of local phone books?

Google已知系统

Google上周获得了一项专利,该专利描述了搜索引擎如何处理和从其在Web上找到的数据中提取模式。我们’告诉可能“关于形式,行为或数据所代表概念性质的观察” that can be used to create useful intelligence about those concepts, and identify 闻名 terms about entities.

可以分析来自网页正文的文档,以识别与这些文档以及与Web上的实体相关联的关键字或类别。该专利主要针对于所在地的企业,但是其教导也可以应用于其他类型的实体。

The patent shows 闻名 terms in a screenshot of an example of local search results.

Google已知系统2

实际的本地搜索结果也会显示它们,而无需“known for” language:

Google已知系统3

But in addition to local search results, the patent tells us that these 闻名 terms can be used in other ways, such as within search results as well. The patent is:
向实体分配权益条款
由Jason Lee,Tamara I. Stern,Gregory J.Donaker和Sasha J.Blair-Goldensohn发明
分配给Google
美国专利8,589,399
2013年11月19日授予
提交日期:2012年3月26日

抽象

除其他事项外,本说明书的主题可以体现为一种方法,该方法包括:识别与实体有关的资源,其中每个资源包括多个术语,并被包括在与多个实体有关的资源语料库中。

Candidate terms from the resources for potentially associating with the entity and a category associated with the entity are identified. A relative frequency of the 候选词s in the identified resources is compared to a frequency of the 候选词s associated with other entities. Each of the 候选词s is weighted, for example, based on a source of the 候选词 and the relative frequency of the 候选词.

A weighted frequency of each 候选词 is calculated based on the weights, and 候选词s are selected as 代表 terms for the entity based on the weighted frequency.

How Known for Terms Associated with an 实体 are Identified

关于本地企业,个人,地点或其他实体的几个网页可能会从中提取可能与该实体相关联的术语。例如,正如我们在上面的红色卡车面包店的本地搜索结果中看到的那样,与面包店相关的术语之一是“Granola.”

根据专利,下一步:

  1. 确定与实体关联的类别(例如,Red Truck Bakery在面包房的类别中)
  1. For each of the 候选词s, a frequency with which each 候选词 appears in the pages is determined (Such as how frequently the term “granola”显示在返回的页面中“Red Truck Bakery).
  1. 基于在其中找到术语的来源和候选术语的相对频率对候选术语进行加权,其中,相对频率是一种或多种资源中的候选术语的频率。“granola”在返回的所有页面中“相对于与确定类别相关的实体相关的资源语料库子集中候选词的出现频率“granola”与“外观”相关的“红色卡车面包店”页面中“granola”在所有“面包店”页面中,“Granola”Red Truck Bakery出现的频率要比其他面包店高很多)。
  1. A weighted frequency of each 候选词 is calculated based on the assigned weights. One or more of the 候选词s are selected as being 代表 terms for the entity based on the weighted frequency, and the selected 代表 terms are associated with the entity in a data repository. Since the Red Truck Bakery makes its own 格兰诺拉麦片, and it’大多数其他面包店都不是很普通的事情,它’被认为是“representative”红色卡车面包店。

然后还可以识别被认为与这些关联术语之一相关的术语。这些术语可以是:

  • A term that is at least one of a plural of the first 候选词,
  • A substantially similar semantic variation of the first 候选词,
  • A synonym of the first 候选词, and/or
  • A subphrase of the first 候选词.

可能不考虑其他一些术语,例如停用词和属于某些预定义类别的词。这些类别可以包括:

  • 指实体位置的术语;
  • 实体名称的变体形式的术语;
  • 与实体关联的联系信息;
  • 与该实体关联的类别关联的停用词列表中包含的术语;
  • 与确定类别相关的文档中的通用术语;要么
  • 时间术语。

The patent goes into a lot more detail on how certain terms might be identified or might be purposefully omitted from consideration as one of these 闻名 terms that might differentiate entities that are in similar categories.

Quickly, a Thai restaurant might be in a category for Thai restaurants with other Thai restaurants, but might be 闻名 a particular chef, or a special that is only served at that particular restaurant.

那个厨师或那个菜单特殊菜单可能被理解为与该特定餐厅(实体)相关的术语,可以显示在该实体的本地搜索结果中,可以被视为与该实体特定相关的关键字,并且有可能出现在知识库中结果也与实体有关。

分享是关怀!

关于25条想法“Google如何查找已知的实体条款”

  1. 一如既往的出色Bill。可能会鼓励‘entity farms’在黑帽社区中?就是专门用于创建关联和‘known for’ connections…如果数据值得信赖,这可能是一件好事–但是,如果有结社的邪恶动机呢?

  2. 法案,

    那里’那些擅长做事的人,然后就有像你这样的人。您是一位出色的搜索专业比尔。我期待您发表的每篇文章。这是我早上6:20’m reading your blog.

    谢谢你
    格雷戈里·史密斯

  3. I’我为此感到兴奋。作为数字营销商,我与潜在客户谈论的第一件事是“你有什么独特之处?”
    换句话说,是什么让您与其他25个您称为竞争的类似企业区分开?
    很多时候,客户都知道是什么让他/她与众不同或变得更好,但是他们从未在数字或传统广告中使用过它。以便’通常是我们开始的地方–与众不同。
    I’我很高兴Google也将认可这些努力–这才有意义。

  4. This definitely seems to be going in line with what 蜂鸟 and the future of google is all about. The knowledge graph and all that jazz. Sure that some people will 游戏 the system and might create 闻名 farms but is that any different that spam back links of the past? We will just have to adapt and learn how to spot those fake sites and get rid of them.

  5. I think its important that things business are 闻名 are also helping them in search terms. If a company is “known for”做生意的人应该知道这一点以及他们出售您知道的寿司的事实。

  6. 大卫,您好

    我可以’甚至开始想象某人能够创造一个“content farm”试图以一种有意义的方式来操纵和滥用语义,而Google则无法’只是黑名单而忽略。

  7. 比尔,神奇的东西再次出现。感谢您发布此信息。

    一些流浪的想法:

    1.我不知道“知名”(又名“一目了然”)片段实际上已集成到知识图谱中,这样每个单词/短语都可以单击并返回其他本地语言,这将需要多长时间?单击时搜索结果。

    2.至少对我而言,Google显然需要客户评论内容来填充“知名”摘要–然后是知识图 –部分解释了Google为什么如此努力地推动Plus评论。如果Google本质上不能使用Yelp的评论内容(它在Google Places的“网上评论”部分中的使用方式),那么就不会有很多受欢迎的网站Google可以抓取大量评论内容。因此,这至少是鼓励Plus用户成为Yelpers的原因之一– very prolific.

  8. 关于农场。

    我认为农场是有可能的,尽管可以做到“White hat”。通过入站渠道,您可以为自己的业务打上烙印“最好的巧克力蛋糕”。将您要构建的提及内容作为策略的一部分,推送到您放在网上的所有内容/食谱,并在评论中以及通过这种操作请求客户提及。

    有点提醒我优化关键字的内容。如果您仔细考虑一下“known for”在实体上的功能类似于当前网站的关键字。不同之处在于“Entity”和链接,但这些大多是内部结构性变化,与关键字与网站的相关性并无不同之处。 (有点像在OOP中构建模板类,您可以输入不同的var类型,但其功能仍然相同)。

    通过查看页面信息来查找网站的内容->从页面外来源进行评估->计算关键字的总体相关性,并在必要时链接到网站。

  9. 不’那么Google Hummingbird对此有很大帮助吗?一切都会更加具体。甚至比以前更是如此。

    我不’不知道,谷歌是一个复杂的野兽,有没有人真正了解什么’继续吗?奇怪的是,Hotmail最近在YouTube上放了一些视频前广告,内容涉及Google如何通过关键字跟踪您的电子邮件首选项。所以’Google允许广告 …Google在隐私方面表现得很出色?我想这是一个偶然的漏网。

  10. 有趣的东西比尔,我’我真的很高兴您能掌握专利脉搏。感谢您的帖子。

    作为一个semhead,我仍然觉得人们想尝试奇怪(但可以理解)‘game’ Google. I’m afraid it’s that ‘old school’ working with ‘new thing’SEO心态会阻碍人们’随着越来越多的semtech被搜索公司雇用,搜索的知名度也随之提高。

    也许不是每个人都了解semtech喜欢‘entity recognition’本质上具有自我学习能力,这意味着它和其他类似技术的时间越长‘hummingbird’ are used, the easier it becomes to spot the good things your business is 闻名 通过 other people as well as data spam.

    机缘巧合将是您在SERP中最好的朋友’s of tomorrow 😉

  11. 哇,这种专利的东西相当高,但是我想一定是那样。

    阅读第3点,在此背景下,关于“candidate term”, couldn’用关键词或关键词替换那个词吗?不’这是什么意思表明在网站的整个页面上一致使用单词或短语(或其同义词)最终会影响搜索结果吗?如果是这样的话,这适合语义搜索吗? Isn’它说关键字已失效,但关键字寿命很长吗?

    显然,我们在这里读到的是包装纸,可以说是专利,但这确实表明,在为语义搜索时代编写有效内容时,关键字仍然发挥着重要作用。换一种说法‘things not strings’ is really ‘包括弦在内的东西’. Thoughts anyone?

  12. @比尔·斯劳斯基
    虽然看起来不太可能,但您永远不会完全知道人们会怎么想。它可能不完全像我一样表现出来’已经描述过,但是如果’s one thing, there are those who would find ways to 游戏 the system.

    我对@David Sewell的初始评论做出了更多回应。

    无论哪种方式,我仍然认为那是激动人心的时刻,特别是对于SEO。 Google正在动摇一切,只有弹性版本才能推出更新-

  13. 嗨,比尔!

    您的另一篇优秀文章。我喜欢阅读您所有的文章,因为就像这篇文章一样,它们确实非常有用并且很有帮助。我希望阅读更多的你的文章。实际上,我是您的粉丝!我一定会分享给朋友。感谢分享 -

  14. 很棒的文章给了我一个“ah-ha”正如奥普拉所说的那样。我为我的客户和我做了很多本地引文建设’我注意到了这些趋势“know for”稍后显示的描述类型。一世’我想我可能会对创建此文件有一些影响。一世’从现在开始,我们将继续密切关注。

  15. 听起来很有趣,并且肯定会为本地搜索专家创造很多机会。但是我认为营销人员或企业主应该更加注意他们“zagat”Google可能会更多地利用它们来获得这些结果。您看到了什么?

  16. pingback:优化知识图|入境西班牙
  17. 好奇地知道这是否会成为html5中的问题。作为一家小型企业所有者,SEO完全由公司内部完成,我一直在研究任何新线索以帮助维持健康的网站排名。

    摘录仍需要吸引您的受众,我更喜欢通过元数据创建自己的摘录。

评论被关闭。