跳到内容

海边的SEO⚓

直接从搜索引擎学习SEO

Cluster 概念

为什么搜索引擎可能会聚类概念来改善搜索结果

通过

分享是关怀!

32 分享

搜索引擎可能会聚类概念以更好地了解有关页面的内容

传统的搜索引擎专注于他们在网页上找到的单词,而不是这些单词的含义。因此,当您搜索[烹饪类Palo Alto]之类的内容时,搜索引擎可能会查找它可以找到的包含所有这些单词的所有页面。如果没有’找不到很多,它可能会做一些叫做“backing off,”并显示一些不’包括所有单词。

但是,搜索引擎可能不会显示该搜索的稍有不同版本的结果,例如[烹饪课Palo Alto],其中“classes” is replaced with “class.” While “class” and “classes” are related with 类 being a subpart, or stem, of the word 类, sometimes variations of words have very different meanings when used in different contexts.

Google本周获得了一项专利,该专利的重点是更有效地捕获文本中单词背后的潜在语义含义。它以Google在2008年授予的一项专利为基础“表征与概念上相关的单词簇有关的文档。” It may act to cluster 概念 when understanding the text it finds on pages.

本周授予的专利是:

从文本生成模型中选择性删除概念上相关的单词簇
由Uri Lerner,Michael Jahr和Vishal Kasera发明
分配给Google
美国专利7,877,371
2011年1月25日授予
申请日期:2007年2月7日

抽象

本发明的一个实施例提供了一种系统,该系统从用于文本文档的概率生成模型中选择性地删除概念上相关的单词的簇。

在操作期间,系统接收当前模型,该模型包含代表单词的随机变量的终端节点,并包含一个或多个代表概念上相关的单词的簇的簇节点。当前模型中的节点通过加权链接耦合在一起,因此,如果已触发的节点的入站链接导致群集节点以与入站链接的权重成比例的概率触发,则从群集节点到另一个的出站链接节点使另一个节点以与传出链路的权重成比例的概率触发。

接下来,系统处理当前模型中的给定群集节点以进行可能的删除。这涉及确定当前模型中从给定群集节点到终端节点或群集节点的传出链接数。如果确定的传出链接数小于最小值,或者给定群集节点激发的频率小于最小频率,则系统将从当前模型中删除给定群集节点。

2008年获批的Cluster Concepts专利为:

基于相关词簇的文档表征方法和装置
由Georges Harik和Noam M. Shazeer发明
分配给Google
美国专利7,383,258
2008年6月3日授予
申请日期:2003年9月30日

抽象

One embodiment of the present invention provides a system 表征与概念上相关的单词簇有关的文档。 Upon receiving a document containing a set of words, the system selects “candidate clusters”与单词集相关的概念上相关的单词的集合。

使用一个模型解释这些候选聚类,该模型解释了如何从概念上相关的词的聚类中生成词的集合。接下来,系统构造一组组件以表征文档,其中该组组件包括用于候选聚类的组件。组件集合中的每个组件指示相应候选聚类与单词集合相关的程度。

两者都是基于理解小段文本背后含义的方式,就像您可能在搜索器中找到的一样’在查询会话期间提供查询建议,并尝试确定这些文本块可能如何相互关联。

集群概念方法背后的价值

这样的方法的好处包括:

  • Help in guessing at 概念 behind a piece of text. These 概念 might be shown to a searcher during a search to help them better understand the meaning behind the text.
  • Enabling the search engine to compare words and 概念 found in a document and a query. This can help the search engine come up with an information retrieval scoring function to help rank web pages in search results based upon those 概念.
  • 通过查看与可能包含特定单词的不同概念相关的潜在结果的群集,将搜索结果扩展为在搜索中包括相关单词和概念。例如,搜索“美洲虎”一词可能意味着汽车,动物或NFL橄榄球队。围绕这些创建的集群“concepts” associated with the term could lead the search engine to show a certain percentage of results covering the different 概念, and making sure of diversity in those results.
  • Comparing the relationship between words and 概念 on a web page and in an advertisement. This can stand in as a proxy for how well an advertisement might perform when displayed on a certain web page. For example, an advertisement for a Jaguar car on a page about jaguar cats may not be very effective.
  • Comparing the relationship between words and 概念 in a query and an advertisement. This can provide an idea of how well an advertisement might do on a search result page for a specific query.
  • Comparing the relationship between words and 概念 from different web pages. This can tell the search engine how far apart conceptually two pages might be when they are clustered together as “similar” documents.
  • 页面的分类以及对某些类型的页面的过滤,基于这些单词(可能与查询一起使用)在哪些群集中出现。
  • Generalizing a search query to retrieve more results (similar to the kind of backing off that I mentioned above), 通过 looking at the clusters that the query terms appear within and parent 概念 for those clusters.
  • Identifying whether a word is a misspelling of another word 通过 looking at the 概念 related to each of those two words. For example, “flicker”从概念上讲与灯光和火焰有关,并且“Flickr”在概念上与照片有关。那里’很有可能“Flickr”并非拼写错误“Flicker.”

我想起了这篇帖子,该帖子涉及2019年授予的Google专利对概念相关的术语进行聚类,该术语对出现在其中的实体的搜索结果进行聚类。我在帖子中写了关于专利的文章, Google搜索结果中的实体聚类

更新于2019年12月31日。

分享是关怀!

32 分享

关于28的想法“为什么搜索引擎可能会聚类概念来改善搜索结果”

  1. 嗨,比尔,

    I’m all for it. I think this type of approach would be a good thing to implement. From reading this I think the best benefit would be identifying whether a word is not spelled right 通过 looking at the 概念 associated to each of those two words. Because I often experience this confusion when I’我在寻找我这个词所在的东西’m搜索完全不会拼错。

  2. 我想知道这是否与Google及其本地搜索工作有关,最近我们在英国看到我们的关键词“Hot Tubs” was being treated as a search term that would be 类ed as local.

    我能理解“Pool” or “Swimming 泳池”是本地搜索字词。但是在英国,我们不访问“Hot Tubs”,我们确实参观了诸如布里斯托尔的罗马浴场之类的景点,但这仍然是一个不应与当地相关的术语。

    一段时间之后,我们的搜索词组现在被视为“Semi Local”结果,包括Google地图,但不仅显示本地结果。在此之前,我们优先考虑所有本地结果,这非常令人沮丧,因为我们位于英国北部,并且会错过许多国家订单。

    In my view Google could be considering local search as one point when registering this new patient, so they could then fully automate which terms could be 类ed as local and which shouldn’t.

  3. 我喜欢Google的搜索技术每年都会变得越来越智能。通过提出更具生产力的变体并解释搜索查询的含义,它们变得越来越好。

    结合Wolfram Alpha和IBM Watson等AI领域的其他近期惊人发展,我相信不久的将来,某些SE就能为自然语言查询提供有意义的答案。

  4. I’我非常高兴Google将其完全整合到他们的搜索结果中。语义聚类的整个想法完全让我流口水。搜索引擎能够理解含义和上下文的能力!它’离HAL 9000仅一步之遥。

  5. 嗯,从描述上看,它听起来像是典型的NLP(自然语言处理)技术。他们描述的技巧可能就是如何使NLP可伸缩。

  6. It’作为Google用户,这是一个好消息,现在我们’能够找到更准确的结果,因为Google也已经有了头脑。 ðŸ〜‰

  7. 有趣。我想知道这意味着什么“捕获文本中单词背后的潜在语义含义”适用于旋转并提交大量文章到使用同义词旋转的目录的互联网营销商?在我看来,这也可能旨在将大量半重复内容转移到“supplemental”档案。谁知道。

  8. 为了让Google为用户提供更好,更快和更相关的搜索结果,它必须提供这样的新功能。他们最近做出了很多改变,IMO对此做得更好。

    @Mark我想你可能就在这里。谷歌已经公开宣布,它将对诸如自动博客之类的内容的重复内容采取更严厉的立场。一世’d希望看到它们在火焰中燃烧。

  9. 我一个人同意约瑟夫。在确定用户搜索的指向性方面,Google仍有很多工作要做。’这只是玩等待游戏的问题。随着技术的进步,他们也在不断进步。我也同意删除汽车博客。

  10. 嗨,约翰,

    One of the other good things about this clustering 通过 概念 is that it looks like it would work well with some of the other things that Google appears to be doing this days, from phrase-based indexing, to associating specific terms and phrases with particular pages to providing diversity in search results. The spell correction approach is one that can help when a word appears to be misspelled but it really isn’t.

  11. 嗨罗斯,

    有趣。听起来Google正在对大多数搜索进行分类“hot tubs”就是说搜索者表示有意购买热水浴缸,并访问出售这些热水浴缸的地方。如果为真,那肯定是本地搜索。但是,那里’s also a chance that people searching for [hot tub] were also attempting to learn more about 热水浴缸. It does sound like Google recognized that there was more than one intent behind that search, and is now providing more diverse results in response.

  12. 嗨,瓦尔,

    如果您问在搜索引擎上工作的任何人,搜索是否是解决的问题,我希望他们告诉您’仍处于起步阶段。他们’已经走了很长一段路,但是那里’还有很长的路要走。

  13. 嗨Shailender,

    这是我最喜欢的专利行之一:

    通常,在这么小的文本中有很多信息,我们可以使用这些信息得出结论,但是也有很多不相关的垃圾信息。我们的系统的主要任务是从垃圾中剔除适当的相关性,同时查看大量(数十亿)的此类文本。

  14. 嗨,马克,

    It’s possible that when pages associated with specific 概念 might be clustered together may be compared so that higher quality results tend to be the one’的搜索返回,尽管我认为’可能还会继续解决您遇到的问题’提出了比这种概念聚类方法更高的方法。

  15. 嗨,Joesph,

    It’很难判断Google是否以及何时开始执行此操作。较早的专利是在2003年首次提出的,所以这个想法已经存在了一段时间。在执行诸如选择在哪些页面和搜索结果中显示哪些广告或确定查询中的单词是否拼写错误之类的操作时使用它的好处可能会导致某人得出以下结论:Google确实是Google而。

  16. 正如您所解释的,我认为集群的概念非常复杂!但是,我了解到LSI成为纯化此模型结果的关键部分。我对么?

  17. 嗨,阿尼尔,

    那里’完全没有在专利中提及LSI,并且我认为假设LSI将以这种方式发挥作用将是错误的。此过程基于概率生成模型,而不是潜在的语义索引。

  18. 嗨,托尼,

    It’这样的系统很可能比依赖于必须手动更新的基于字典的系统更好地处理语。对于被认为是to语的词或短语,必须有足够的人采用,以便该词或短语的至少一定数量的用户可以识别该词的语含义。

  19. 专利局一般要花多长时间?

    2008年6月3日授予
    申请日期:2003年9月30日
    2011年1月25日授予
    申请日期:2007年2月7日

    当我想到专利一词时,我想到的是亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)和他被殴打到专利局的那个人,以便在另一个人之前15分钟提起诉讼。…. 4-5 years. Wow.

  20. 以赛亚你好,

    它为N’专利局需要一段时间才能授予专利。人们需要时间来挑战专利,专利审查员也需要时间来搜索现有技术。专利中的部分或全部权利要求可以被拒绝,在那里’专利发明人也有机会修改权利要求。确实发生了,原始专利在被授予时可能会在许多方面有所不同。然后,一些专利最终也被拒绝。

    如果您发现亚历山大·格雷厄姆·贝尔(AAlexander Graham Bell)的专利纠纷很有趣,那么您可能想研究特斯拉(Tesla)和马可尼(Marconi)之间的专利之争。

评论被关闭。