搜索引擎如何根据相关查询确定搜索引擎的相关性

分享是关怀!

It’s interesting to see how a search engine might try to calculate the relevance of search results, and find 相关查询

雅虎最近获得的一项专利研究了一种方法,该方法可能有助于其确定其与搜索者实际显示的结果之间的相关性,以及当搜索者使用可能涵盖一系列主题。

在介绍他们的自动方法来检查相关性和多样性之前,该专利告诉我们有关使用手动审阅或单击数据来确定相关结果可能会遇到的一些限制。

审稿人

检查搜索结果相关性的一种方法是手动筛选每个查询的结果。这可能很耗时,涉及人为错误的可能性,并且不会’似乎它甚至开始涵盖所有在网络上进行的查询。

我确实在Craig上看到一则广告’s几周前从Lionbridge Technologies,Inc.列出,要求兼职担任互联网法官。在网路上的一小段侦探发现,尽管克雷格(Craig)’s List posting didn’确定最终雇主。根据广告中的职位描述:

职位描述

关联度测量是所有搜索引擎的基础,没有它,谁也说不清改变是否会使系统变得更好或更差。作为一名互联网法官,您将成为帮助确定搜索引擎的相关性的关键参与者。我们正在寻找可以在家工作的互联网法官;根据一套客观的指南对网站进行评论和评分。候选人必须是狂热的互联网爱好者。如果您喜欢浏览网络,并且可以按照一套特定的准则对网站进行评分,那么我们希望收到您的来信。

搜索引擎确实使用人工审阅者。棒球也是如此。他们从不犯错误,现在对吗?

裁判在二垒比赛中进行评判。

追踪点击

In a recent post, I described a patent filing from 雅虎, where they presented a method of ranking images based upon a method of 预测点击率 在搜索结果中不同位置的图像。

该方法背后的假设是,将点击看起来与查询相关的图像,并且可以使用搜索结果中某些位置的图像预测率来识别根据其在广告中出现的位置而表现出色的图像。结果,然后将其向上移动,并根据其位置查找效果不佳的图像,然后在结果中将其向下移动。如果图像搜索结果显示图像的缩略图,则该图像可能会很好地工作。

Would tracking the number of times that web search results get clicked upon when they appeared in search results reveal that those results are relevant for the query terms that they rank for? That they might be 相关查询?

这种方法的问题在于,搜索者只能看到网页的标题,摘要(或摘录)和URL,而这些URL可能无法准确反映出他们所代表的页面上显示的内容。这种限制意味着点击网页的搜索结果可能无法很好地表明这些结果与特定查询的相关性。

判断球和本垒打的自动化系统。

上图来自“自动”专利 棒球裁判系统。虽然它可能会很好地打出球和打击,但它可能不会 ’不会对其他任务有帮助,例如确定击球手是否被投球击中,或者确定跑步者是否安全还是在盘上近距离比赛中没有表现。

确定搜索结果的相关性和多样性的算法

雅虎’拥有专利的流程使用最近搜索的信息来查看搜索结果是否与人们在搜索引擎上进行的搜索相匹配。

网络和垂直搜索引擎的自动相关性和品种检查
Jignashu G. Parikh发明
Assigned to 雅虎
美国专利7,558,787
2009年7月7日授予
申请日期:2006年7月5日

抽象

提供了自动检查搜索结果的相关性和多样性的技术。

将查询提交给搜索引擎,搜索引擎使用搜索算法来基于查询获取搜索结果。标识查询的前n个相关术语的集合。对于术语集中的每个相关术语,确定其相对于术语集中所有术语的相对频率。如果该术语未出现在任何结果中,则发生了与该术语的相对术语频率成比例的品种损失。

否则,通过将包含该术语的结果的比例与某个术语的相对术语频率进行比较,可以计算出搜索结果的相关性。对一组相关术语中的所有术语重复此过程,以产生与结果相关的总的变化和关联性。

搜索引擎相关度-总相关度a

当某人在搜索引擎上进行搜索时,他们会在搜索框中输入查询字词,然后按Enter。

搜索引擎返回一组结果,搜索结果根据搜索算法对这些结果进行排名。用于对这些结果进行排名的实际算法通常包括同时测量与搜索查询匹配的页面的相关性和重要性的元素。

This patent filing describes a testing interface that search algorithm and search engine developers can use to test for 相关查询.

正如我在本文开头所指出的那样,’有趣的是,搜索引擎可能会尝试确定相关的搜索结果。

使用相关术语

This process of determining relevancy and variety in search results starts 通过 identifying terms that might be in 相关查询.

有人搜索[Amazon],搜索引擎将检索与查询有关的结果,并将结果显示给搜索者。

显示的结果可能与在线商店有关,网址为“Amazon.com” or to the “Amazon 河.”

那里 ’无法真正自动确定搜索者是否需要有关一个或另一个或什至不同信息的信息。

但是,搜索引擎可能会查看查询日志以及基于会话的搜索数据和其他数据集,以确定查询的子概念。

这些子概念可能是您在搜索引擎的查询建议中看到的那种子概念。看我以前的帖子, 搜索引擎如何决定和优化查询建议 有关搜索引擎如何识别和优化特定查询的查询建议的一些想法。

雅虎可能提供的同类数据“Also Try”类型查询或Yahoo预测性搜索建议也可能用于识别搜索者的相关术语集’s query.

搜索框下的yahoo自动完成查询建议

搜索引擎还跟踪查询提交给搜索引擎的时间,这可能有助于识别时间敏感的查询。

可以从上周而不是去年的搜索引擎查询日志数据中收集相关术语,以确保信息及时。

因此,如果几个月前发生了地震,则该时间的查询日志可能包含许多对[亚马逊地震]的搜索

一个月左右之后,对该词的搜索可能会少很多,并且[amazon地震]可能不会像在事件发生后不久之前那样被视为相关查询。

搜索最近的查询日志可能会显示包含或同时发生的查询有多少次” with “Amazon” appeared in that data. So 相关查询 such as “amazon 图书,” “amazon 河,” and “amazon 雨林” might be determined to be 相关查询 if they show up frequently enough in the query logs that are examined.

搜索引擎还可以在查询日志中查看来自搜索者的搜索会话,以查看其他查询在与该查询相同或包含相同查询的搜索会话中出现的频率“Amazon.”

搜索会话可以定义为在特定时间段(例如一个小时或一天)内,来自搜索者的多次搜索。

相对词频和相关性检查

搜索引擎提出一组相关查询词后,它可能会计算与原始搜索者相比每个相关词条的相对频率’s query in the query logs that were examined, to identify 相关查询. Here’s是一个如何从专利申请中进行计算的示例。

例如,参考表216,该术语的F项“books”是25,表示“books” co-occurred with “Amazon”在查询日志210的选定部分中,以表212表示25次。此外,总和为50,对应于表216组中所有词语的共现总数。

因此,可以确定该术语的F.sub。“books”是25/50或50%。表216还包含一组相关术语中所有其他术语的相对术语频率。具体来说,术语“频率”“rainforest”是12/50或24%“river”是8/50,即16%;和的“fish” is 5/50, or 10%.

集合中每个相关术语的相对术语频率用于确定主要查询的搜索结果的相关性和多样性,如本文进一步所述。

这些比率可能用于查看原始搜索查询的搜索结果。

如果您在搜索[amazon]时查看前十个结果的标题和摘录(或实际内容),那么其中一半结果都包含单词“books” like the query logs examined do? Do a quarter of them contain the word 雨林? Is there a mention of the word “river”在其中一两个中?这个词至少有一个“fish” in it?

如果查询日志和搜索结果之间的比率匹配得很好,则可能表明这些结果的相关性很好。这也可能表明结果的多样性也很好。

该专利确实警告说某些搜索结果可能非常相关,但是如果搜索者认为它们可能也完全缺乏多样性’s query doesn’可能包含子主题或涉及不同主题的相关术语。

结论

I thought it was interesting that this patent describes a way of finding 相关查询 that is very similar to the method described in a Microsoft patent application in my last post.

The idea that the frequency of appearance of words from 相关查询 could be used to gauge the relevancy and variety of results for a searcher’的查询也值得考虑。

如果有一半人在搜索中使用[amazon],“books”在这些搜索中,搜索[amazon]的搜索结果中应该有一半包含单词“books?”如果搜寻[amazon]的搜寻者中有20%包含这个词“rainforest’ in those searches, should two of the top ten search results be results about the 亚马孙 雨林?

目前,雅虎[amazon]的前十大搜索结果包含书店.com版的两个结果,其次是书店.ca版的两个结果,然后是amazon.com的维基百科页面,有关亚马逊河,关于亚马逊的几页’的网络服务,这是co.uk亚马逊商店的结果,也是亚马逊卖家服务的最终结果,该结果使人们可以通过亚马逊销售产品。

这些结果是否反映了Yahoo中最近进行的搜索’包含单词的查询日志“Amazon,”还是出现在与搜索[amazon]相同的搜索会话中?

搜索结果的相关性是否应该基于最近查询日志中相关术语的频率?这是衡量这些结果可能相关性的好方法吗?

I’实际上,当该专利发表为 专利申请 在2008年1月。我没有’直到我完成本文的大部分工作之前,我都没有意识到这一点,但是我认为这两篇文章实际上是相辅相成的,所以我决定继续发表这篇文章。

我认为这两篇文章都很好地强调了试图理解搜索引擎可能视为的重要性“related queries” for a specific query, and how those might not only influence which search suggestions might be shown in a set of search results but also how relevant a search engine might believe those search results to be based upon those 相关查询.

分享是关怀!

关于8条想法“搜索引擎如何根据相关查询确定搜索引擎的相关性”

  1. 嗨,Lohith,

    Thank you. This particular patent is from 雅虎, but I think it does a good job of showing how methods that might be used for something like finding 相关查询, which all of the major search engines do, could be used in other ways as well.

  2. 非常有趣的比尔。当然,相关查询是我们在此非常关注的事情。了解搜索引擎认为与特定查询相关的内容为内容开发提供了很好的见识。

  3. 嗨,Bullaman,

    We’重新思考。我真的很喜欢浏览查询的搜索结果,探索查询的不同含义,查看显示为查询建议的内容,查看复数形式和单数形式,在适当的情况下连接和分隔并连字,等等。我喜欢看到触发图像,视频,新闻和本地结果的外观的原因。在创建内容时,该检查可以为您提供很多想法。

  4. 嗨,比尔!我有一个问题,我想你将是回答这个问题的人。您认为访问者在网站停留时间,跳出率和其他因素方面的跟踪能说服网站在搜索引擎中排名。如果很少,那不久的将来会改变吗?我想您已经解决了这个问题,但是我可以’记得你的意见。

  5. pingback:» Böse Sach- &Lachgeschichten | seoFM-搜索引擎优化和在线市场营销人员的德国PodCast播客
  6. 嗨乔尔,

    在许多专利申请中散布着许多提示,这些信息是用户行为信息,例如在网站上花费的时间,在页面上向下滚动的数量,页面上的鼠标移动等等,可能会在页面排名中发挥作用–和个性化。我认为用户行为在将来可能会扮演越来越重要的角色。一世’在这里会指出其中的几个:

    谷歌’s patent, 基于历史数据的信息检索,其中一节介绍了如何使用用户行为。这里’s a snippet:

    用户行为

    根据与本发明的原理一致的实施方式,与一段时间内与文档有关的个人或总体用户行为相对应的信息可以用于生成(或改变)与文档相关联的分数。例如,搜索引擎125可以监视从一组搜索结果中选择文档的次数和/或一个或多个用户花费在访问文档上的时间量。然后,搜索引擎125可以至少部分地基于该信息对文档进行评分。

    如果针对某个查询并随着时间的推移或在给定的时间范围内返回文档,则在给定相同或相似查询的情况下,用户平均在文档上花费的时间平均更多或更少,因此这可以用作该文档的指示是新鲜的还是陈旧的。例如,假设查询“河景游泳时间表”返回带有标题的文档“河景游泳时间表。”进一步假设用户过去花费30秒来访问它,但是现在选择文档的每个用户仅花费几秒钟来访问它。搜索引擎125可以使用该信息来确定文档是陈旧的(即,包含过时的游泳时间表),并相应地对文档评分。

    总之,搜索引擎125可以至少部分地基于与随着时间的推移与文档有关的个人或总体用户行为相对应的信息来生成(或改变)与文档相关联的分数。

    另一项Google专利描述了这种跟踪用户行为如何与个性化搜索结果结合使用。看到: 个性化搜索结果中放置内容的顺序.

    该专利描述了诸如从搜索结果中选择页面,在页面上滚动的数量,浏览习惯以及其他用户信息之类的信息如何能够帮助搜索引擎个性化针对特定查询的搜索结果。这里’是该专利的摘要,解释了“why” of 为什么 they would do that:

    [0009]例如,假设用户向搜索引擎提交仅具有一个术语的搜索查询“blackberry”。在没有其他上下文的情况下,基于PageRank的搜索引擎返回的文档列表顶部可能是指向“www.blackberry.net,”因为此网页的网页排名最高。但是,如果查询请求者是对食物和烹饪感兴趣的人,则对搜索结果进行排序,以便将包含食谱或其他与食物相关的文本,图片或喜欢。期望具有能够重新排序其搜索结果或以其他方式自定义搜索结果的搜索引擎,以便强调提交搜索查询的人最可能感兴趣的网页。此外,期望这样的系统需要来自单个用户的最小输入,在没有来自用户的关于用户的明确输入的情况下,很大程度上或完全地操作’的偏好和兴趣。最后,希望这样的系统满足用户’有关安全性和隐私性的要求。

评论被关闭。