搜索实体之间的关系

分享是关怀!

当我谈论或撰写实体时,’通常是在特定人物,地点或事物的背景下。 谷歌最近获得了一项专利,该专利更狭义地讨论了另一种类型的实体。这些实体称为“search 实体”,并且该专利使用它们来预测概率并更好地理解它们之间的关系。这种分析可能会导致某些页面的排名高于其他页面,这是因为它们与其他网站的相似性,并且某些搜索结果也倾向于较新的结果。

These 搜索实体 can include:

  • 搜索者提交的查询
  • 响应查询的文档
  • 搜索者在其中提交查询的搜索会话
  • 提交查询的时间
  • 针对查询显示的广告
  • 在文档链接中定位文字
  • 与文档关联的域

那里 are many different ways that 谷歌 might create a “probability score” based upon relationships between these different types of 搜索实体 .

These 概率分数s can have the following impacts:

1) Relationships between 搜索实体 can be identified, including queries, documents retrieved, domains those documents are on, query sessions, advertisements shown in response to a query, and the time of submission of a query.

2) The strength of relationships between these 实体 can be measured using a metric obtained from direct relationship strengths (derived from data indicating user behavior, such as user search history data) and indirect relationship strengths (derived from the direct relationship strengths).

3) The relationships may be used in several ways. For example, the relationships can be used to propagate a property of one 实体 to other related 实体.

4)没有足够的支持(例如,没有足够的搜索历史数据)将给定属性与第一实体相关联的第一实体与确实有足够的支持将给定属性与第二实体相关联的第二实体之间的关系可以是确定,并且给定的属性可以与第一个实体具有更高的置信度。

5)这些关系可用于向用户提供查询建议功能,其中标识与用户提交的查询有关的查询。

6)可以使用这些关系对查询做出更准确的排名。

7)这些关系可以用来提供垂直搜索功能,其中可以识别与一组文档有关的文档。

8)垂直搜索功能可用于使用与响应该查询的排名最高的文档有关的其他文档来增强对查询做出响应的一组搜索结果。

9)通过基于锚,文本,查询和其他相关信号对文档进行评分,可以改善长尾文档(例如,搜索历史记录很少的文档和可用于对文档评分的其他评分数据)的评分以及相关文件。

10)可以基于与该域中文档相关联的查询对域进行分类,并且可以对相似的域进行聚类。

11)查询可以根据其受欢迎程度的时间进行关联

12)可以识别即将流行的查询,并且可以为这些查询提供新的结果。

13)查询和会话可以从已知为垃圾邮件的会话中识别为垃圾邮件。

14)可以减少垃圾邮件会话和垃圾邮件查询对评分的影响。

该专利是:

Search 实体 transition matrix and applications of the transition matrix
Diego Federici发明
Assigned to 谷歌
2013年8月20日授予
提交日期:2009年12月7日

抽象

用于使用搜索实体转换概率的方法,系统和装置,包括编码在计算机存储介质上的计算机程序。在一些实施方式中,识别实体和实体之间的转移概率的数据被存储在计算机可读介质中。每个过渡概率表示一对实体之间的关系强度,因为它们在搜索历史数据中是相关的。

在一些实现中,标识查询的流行度的增加,并且将不同的查询标识为与该查询在时间上相关。响应于不同查询的文档的计分数据被修改以支持较新的文档。在其他实现中,接收将第一会话标识为垃圾邮件的数据,并使用过渡概率为第二查询会话或单个查询计算垃圾邮件分数。根据垃圾邮件评分,将第二个会话(或单个查询)识别为垃圾邮件。

搜索历史

有人向搜索引擎提交查询。搜索系统通过标识与查询匹配的文档来返回搜索结果。

当某人执行几次搜索,单击结果,查看文档并返回搜索结果页面时,将收集搜索历史数据。

搜索历史数据可以包括:

  • 提交查询的时间
  • 用户点击了哪些文档,以及
  • 用户在文档上停留了多长时间。

点击数据是某人查看文档的时间。在文档上停留时间更长的时间称为“long click”, and may indicate that a searcher found the document to be 相关的 to the query. A brief period viewing a document can be termed a “short click”,表明缺少文档相关性。

搜索历史记录数据可能分为与不同会话相对应的细分。查询会话是用户提交查询的时间段,可以通过多种方式进行衡量,包括:

  • 指定的时间段(例如,三十分钟)
  • 通过指定数量的查询(例如,十五个查询)
  • 直到指定的闲置时间(例如,十分钟未提交查询)
  • 搜索者登录后
  • 当搜索者提交与类似主题相关的查询时

Search history can include information about the different 搜索实体 .

示例:结果质量统计

在会话A期间,在时间A,搜索者查找查询A,在文档A中搜索了12.3秒,在文档B中搜索了14.5秒,并在文档C中搜索了2.0秒。

google-transition-probabilities-2

First-order transition probabilities can be taken from the search history data, using an 实体 type-specific transfer function to calculate the transition probability between two 实体.

从搜索历史数据中获取的文档到查询的转换概率基于查看文档的搜索者发现该文档成为查询的响应搜索结果的可能性来估计文档和查询之间的关系强度。在上面的示例中,搜索者在不同时间段内查看了三个不同的文档,其中文档B的查询到过渡属性最强,文档A的最强,文档C的最弱。

这个概率是“quality of result”统计估计响应式搜索者如何将特定文档作为特定查询的搜索结果。

The statistic would look at how many 长按s there were for a document when it was presented in response to a query, divided 通过 the total number of clicks for all documents clicked upon in response to that query.

其他结果质量统计

A different 结果质量s statistic can be calculated from click data for the document, the query, and other queries similar to the query.

如果查询仅在以下方面有所不同,则可以认为它们相似:

  • 拼写差异很小
  • 字序上的细微差异
  • 缩写的使用
  • 同义词的使用
  • 停用词的使用
  • 两个查询的编辑距离

文档到查询的转换概率可能基于搜索结果中似乎响应查询的所有文档的百分比。

示例:搜索会话过渡概率的文档

也可以从搜索历史数据中计算出文档到会话的转移概率。

该概率基于在会话期间是否查看过该文档以及会话期间可选地查看了多少个文档来估计文档和会话之间的关系的强度。

在一个版本中,可以通过分析在会话B期间是否单击了文档A来找到文档A和会话B之间的文档到会话转换概率。如果不是,则文档到会话的概率为0。单击后,系统可以通过将1除以会话期间单击的文档数来计算文档到会话的概率。

Alternatively, if the click on the document was a 长按, it might have a value of 1, and if a 短按, 0.

示例:查询会话的查询

查询到会话和会话到查询的过渡概率也可以从搜索历史数据中计算出来。

查询到会话的转移概率基于查询是否在会话期间提交以及可选地在会话期间提交了多少查询来估计查询和会话之间关系的强度。

会话到查询的转换概率基于是否在会话期间提交查询以及可选地在多少个会话中提交查询来估计会话与查询之间的关系强度。

如果没有在会话A中提交查询A,则查询到会话的转移概率(例如从查询A到会话A的转移概率)为0,否则为1除以该会话期间提交的查询数。

同样,这可能包括原始查询以及与该查询相似的查询。

示例:查询时间转换

可以从搜索历史数据中生成查询到时间的转换概率。

查询到时间的转换概率基于给定查询在给定时间是否增加了流行度以及可选地给定查询多久增加了流行度来度量给定查询和给定时间之间的关系的强度。

通过确定查询A在时间B的受欢迎程度是否显着增加,可以从搜索历史数据中计算出查询A和时间B之间的转换概率。如果不是,则查询到时间的转换概率为0。如果查询A确实在时间B的受欢迎程度显着增加,那么系统可以通过将1除以查询的受欢迎程度显着增加的次数来计算查询到时间的转换。

可以通过分析随时间变化的查询的流行度度量来确定给定查询在给定时间是否具有显着增加的流行度。

流行度度量可以是在给定期间内提交查询的次数除以该期间内提交的查询总数。如果从一个时间段到下一个时间段的受欢迎程度变化的变化幅度超过阈值,则在观察到该变化的时间内查询的受欢迎程度显着增加。该阈值可以凭经验确定,可以是:

  • 绝对数量
  • 第一阶段的普及度指标的百分比,
  • 观察到变化的期间的流行度度量值的百分比。

地理位置对时间转换和地理位置查询的影响

从查询到时间的转变概率可以进一步基于提交查询的地理位置,例如,以识别在特定时间从某个地理位置查询的受欢迎程度是否显着增加。

例如,流行度度量可以是从给定地理位置提交查询的次数除以从该地理位置提交的查询的总数。

地理位置的示例包括,例如,大洲,国家,州和城市。

示例:查询过渡的时间

到查询时间的转换概率也可以从搜索历史数据中得出。

到查询时间的转换概率基于查询与查询在当时的受欢迎程度是否增加,以及可选地还有多少其他查询在当时的受欢迎程度有所增加,来估计时间与查询之间的关系强度。

通过确定查询A在时间B的受欢迎程度是否增加,从搜索历史数据中计算出时间B和时间A的转换概率。如果不是,则查询到时间的转换概率为0。在时间B受欢迎程度显着增加,那么查询到时间的转换是1除以在时间A受欢迎程度显着增加的查询数。

从时间到查询的转变概率可以进一步基于发出查询的位置,例如,以识别在某个时间从某个位置查询的受欢迎程度是否显着增加。

域和文档转换概率

该系统可以根据搜索历史数据外部的文档和域之间的关系来计算文档到域的转移概率和域到文档的转移概率。

文档到域的转移概率衡量给定文档是否在给定域中。

在一些实现中,如果文档不在域中,则文档到域的转移概率(例如从文档A到域A的转移概率)为0,如果文档在域中,则为1。

启发式可用于解决聚合过程中的永久重定向,并避免在托管域(例如blogspot.com)上进行聚合。

例如,系统可以查看域注册来确定谁与某些文档和某些域相关联,并且可以从人类评估者那里收到关于具有永久重定向的文档以及哪些域托管域的反馈。

也可以使用其他启发式方法来解决永久重定向并避免在托管域上进行聚合。

域到文档的转移概率例如基于文档对域的重要性(例如,文档是否在域中,并且可选地,基于文档对域的重要性)来衡量给定域与给定文档之间的关系的强度。域中还有多少其他文档)。

在一些实现中,如果文档不在域中,则域到文档的转移概率(例如从域A到文档A的转移概率)为0,否则除以1除以域中的文档数。

广告过渡查询

该系统还可以计算查询到广告的转换概率,该概率测量广告的收入对查询产生的总收入有多重要。

该系统可以通过将当响应于查询B显示广告A时显示的广告产生的收益除以响应于查询B呈现的广告产生的总收益来计算从查询B到广告A的转换概率。

该系统还可以计算广告到查询的过渡概率,该概率测量来自查询的收入对为广告生成的总收入有多重要。

例如,系统可以通过将响应查询B呈现广告A时呈现广告A时产生的收入除以广告A产生的总收入来计算从广告A到查询B的转换概率

转移概率的其他用途

  • 确定查询的商业性
  • 识别相关查询
  • 基于对文档的共享查询,文档排名更高
  • Identifying documents 相关的 to a topic from an initial group of documents related to a topic
  • 使用与该文档组中排名靠前的文档相关的文档来增强对查询做出响应的一组文档
  • 确定一组与排名靠前的文档相关的其他文档
  • Scoring and ranking a first document 相关的 to a query based on anchors from a second document that is related to the first document
  • 根据与域相关的查询对域进行分类
  • 从第一个垃圾邮件会话中识别出第二个垃圾邮件会话
  • 从垃圾邮件会话中识别垃圾邮件查询

这里s’专利之一的例子’s images:

google-transition-probabilities-3

分享是关怀!

27个想法“搜索实体之间的关系”

  1. 有趣的是,过去Google曾指出它们没有出现在第7点和第8点’不能保持针对特定行业的垂直搜索,对于不同的垂直行业,seo因素的权重也不会有所不同

  2. 比尔,一如既往的出色。您估计这也代表Google所说的话,“uncle!”并用肚脐注视自己的先前结果,以及人类对‘entities’ to replace good old-fashioned AI attempts to derive meaning and quality directly from those 实体?
    如果是这样,是’如果仅依赖或严重依赖此技术,则该技术会遭受不断的迭代退化(例如影印本,还记得吗?)?

  3. 现在变得非常复杂,很有见识。

    一些想法:
    1.这使其他领域中发生的很多事情相对化,链接建立,复制等。不替换或更改原始系数,而可能更多地增加另一个加权系数。
    2.搜索历史非常重要。 (我之前提到过:)历史似乎对我的个人成绩影响最大。尝试一下,搜索,然后删除您的历史记录,然后再次搜索。主要区别。 (尝试使用搜索工具‘visited pages’ vs opposite).
    3.这还允许确定从一个用户到下一个用户的理想路径。

    它看起来越来越像SE-CRM,也许我们seo应该更多地关注跨会话段内搜索路径。

  4. 用户似乎确实确实想“extend” it’通过将我们用作众包来了解查询的能力。 谷歌员工现在可以对网站相关性进行排名,而这可能通过算法来完成,这些算法考虑了用户根据特定查询选择网站时的行为,他们’对这些网站/广告的反应。

    我认为这将为黑帽市场创造一个新的细分市场,我们可能会看到人们越来越多地使用具有链接的Google帐户的漫游器来改善查询点击统计信息和网站参与度。您可以将长尾关键词定位到那些机器人可能占多数的位置,从而改善您的’有关此查询的统计信息,Google会了解到该查询与“better”关键字查询,并会为此排名。

  5. 嗨,比尔,

    您认为第10点所述的域聚类结果如何?这真是太深了。感谢您蒸馏出来。

  6. G’Day Bill,感谢您提供的丰富信息(确实非常详细),今天是澳大利亚,星期六星期六上午,在阅读您的信息的一半途中,我的早晨咖啡喝完了。我经常阅读许多不同的专利(大部分来自您网站上的资源)(我记得的专利似乎与您的新帖子有关) http://www.google.com/patents/US8024326 我也许可以从排名的角度看到这种关系,并且您的理解肯定会比我的更好。而且我确实认为Google正在某种程度上朝着越来越自然地显示自然排名的方向迈进,也许这是一个很难显示的想法,因为它只能显示质量(与搜索结果相关的真实信息,而不是更多以及更多广告或垃圾邮件(受管制的)搜索结果0。无论如何,感谢您提供的另一项有趣的见解,我’我要喝点咖啡

  7. The problem is those 实体 and possibilitiesw doesn’当您搜寻某个特定英文术语时,对于所有语言都无法正常工作韩元’t be the same for other languages such as Arabic so there is no one pattern for these 实体.

  8. pingback: 个性化追求
  9. 我想看看您是如何在关键字研究和内容创建上实际实施这项有趣的研究的,我’确保许多博客作者会如此兴奋。

评论被关闭。