搜索引擎如何根据查询日志中基于时间的数据对搜索结果进行排名

分享是关怀!

如果您在Yahoo搜寻词组“world cup” (without the quotation marks), chances are good that the search engine will show you mostly pages about the 2010 世界杯, even though the tournament is held every 4 years and there may be many pages relevant for the phrase that don’专门针对特定年份。

有人搜寻的可能性有多大“world cup,” they are looking for information about the upcoming tournament, taking place in South Africa between June 11th, and July 11th, 2010? On the other hand, how likely might it be that they want to find information about the 世界杯 held in 2006? Or just general pages about the sporting event?

If I told you that the search engine was likely reordering those search results based upon time-based data, would it 吃惊 you? Would you expect a Yahoo or Google or Bing to focus upon rerank search results in a manner like this, when they have some temporal aspect to them, such as a search for the 奥运会, or the World Series, or the 世界杯?

It’搜索引擎可能会查看其查询日志,并查看特定查询是否包含在更具体的搜索中,这些更具体的搜索包含某种时态数据(例如年,月,日或一天中的时间),然后重写搜索器’的查询以包含基于时间的信息。 Yahoo最近的一项专利申请解释了一种显示此类信息的相当简单的方法。专利申请是:

隐式识别和扩展临时限定查询
Rosie Jones,Donald Metzler和Peng Fuchun发明
分配给Yahoo
美国专利申请20100131538
2010年5月27日发布
提交日期:2008年11月24日

抽象

描述了用于识别隐式时间限定的查询,即隐含但未明确说明的查询的方法和装置,以及用于扩展此类查询以包括一个或多个时间参考的方法和装置。

I’过去曾写过有关Yahoo如何看待某些特定查询的信息,而搜索者却没有’包括地理术语,但最佳搜索结果可能涉及搜索引擎推断搜索结果地理位置的地方 搜索引擎如何区分区域查询与全局查询的意图。一世’我们还撰写了有关Yahoo先前的专利的文章,该专利描述了如何类似地使用类似这样的时间数据, 搜索引擎如何尝试匹配搜索者’分析搜索引擎查询日志的意图

该专利申请提供了有关搜索引擎如何分析或更新有关搜索者信息的更明确的细节。’s intents taken from query logs to give more weight in search results to some search结果包括time-based information.

例如,可以使用基于计数的方法查看所有查询:

1)可以对查询搜索引擎的查询日志进行分析,以计算明确包含特定年份的查询的数量,例如,通过使用该年份作为其搜索的前缀或后缀(“2004 奥运会, Olympics 2008, 等等).

2)该术语在查询中的使用次数也被计算在内

3)对于使用更广泛查询的所有时间,都会计算特定年份/查询组合的比率。例如(olympics + 2004)/ olympics,或(olympics + 2008)/ oylympics。

4)如果比率超过特定阈值,则包含查询词的所有查询将被认为是‘隐含一年资格。”

对查询日志的这种分析可能会在离线状态下进行,而不是每次有人搜索诸如“world cup” or “Olympics,”缓存的日志文件信息可能会随着搜索行为数据的更改而不断更新。

在寻找“world cup”在Yahoo上,搜索引擎提供了几种“try also”搜索结果顶部的搜索建议,其中包括“world cup 2010″ and 世界杯 2006.”专利文件中提到,搜索引擎可以提供这种查询建议,甚至可以提供时间轴,搜索者可以用它来选择与其搜索最相关的年份。

We’再次告知,搜索引擎还可以在搜索结果的顶部注明已对结果进行了修改以包括最相关的年份,并提供了一种使搜索者可以拒绝该修改的方法。

一种计算可能包含特定年份的查询比率的替代方法是让搜索引擎查看来自搜索者的单个查询会话,并查看搜索者将其查询重新构造为包含一年的次数。

So, if someone was interested in learning who won 美国偶像 in a specific year, and their first search was “American Idol”,而他们的后续搜寻包括特定年份,例如“American idol 2006”,则可以使用来自特定查询的查询数据信息来代替上述查询的数量。

虽然我只看到一个搜索结果“American Idol”在Yahoo搜索结果中包含该查询字词的年份,即“predictive”出现在Yahoo搜索框下方的搜索结果为我提供了以下建议,其中包括:“American Idol 2010”, “American Idol 2009″, and 美国偶像 2008.” It looks like time-based information might be offered in those 预测性的 searches even when this kind of temporal data isn’必须用于重新排名搜索结果。

该专利申请告诉我们,它可能会查看除年份以外的时间数据,例如:

  • 一天的时间,
  • 个别日期,
  • 一周中的日子,
  • 特定星期
  • 特定月份
  • 具体的几十年
  • 特定的世纪
  • 特定的千年
  • 等等

结论

当搜索引擎在搜索框中键入术语时,搜索引擎尝试查找的内容超出了搜索者使用的关键字。为了弄清楚搜索背后的意图,他们可能会翻阅查询日志文件,以查看其他人搜索的有关所使用查询词的信息。

该查询日志信息可以在某些情况下证明基于位置的意图,或基于时间的意图,或完全证明某些其他类型的意图。

除了位置和时间以外,搜索引擎还可以决定查询日志中其他哪些信号来重新排名您看到的搜索结果?

这种对搜索结果的排名不应该’t come as a 吃惊 吸引人们密切关注这些天搜索引擎在做什么。

搜索结果“World Cup” seem like a pretty good example of search results for the tournament being reranked to focus upon 2010。 I’m not sure that I’我看到结果是根据几年以外的时间重新排名的,但是我’会看。如果您能提出这些例子并愿意分享,请在下面的评论中告诉我们。谢谢。

分享是关怀!

39个想法“搜索引擎如何根据查询日志中基于时间的数据对搜索结果进行排名”

  1. I’我不确定这对普通搜索者是否特别有用。我认为这样的查询’不很明确(就日期或其他因素而言)应得到的结果是’也不是很具体。如果我搜索[世界杯],’我正在寻找有关比赛的信息,而不一定是今年’的比赛。但是也许’s just how I search.

    我可以看到,将这些数据用于其他搜索的建议中将很有用。大约一年前,我注意到Google在搜索时采用非常短期的趋势来确定建议的内容:显然,如果许多人在某个特定的填字游戏中搜索了许多线索,那么当一个人在其中搜索任何线索时,其他搜索将作为建议。

  2. 嗨,比尔,这是我的第一次。我最近开始了一个全职的互联网营销顾问工作,而工作中的人已经多次引用您的网站!所以我想我’从现在开始将成为常规。对于基于时间的数据进行重新排名,我认为这非常有趣,并且您提供了一些很棒的观点,将向大家展示他们的工作。

  3. 这使我想起了一些QDF,尤其是对于某些时期的大量查询和高峰。引擎倾向于偏爱相关的新鲜内容以适应即将到来的趋势。我还会想象基于您的查询的基于类别的结果。对于前。“World Cup”将包含以下结果:

    1. Upcoming Africa 2010 世界杯
    2. History of the 世界杯
    3. 以前 世界杯 (say 2009, 2008, 等等)
    4. 世界杯 academic facts

  4. 至少我们可以相信Google会尽其所能为人们带来最好的搜索结果。

  5. 比尔-我以为你不能’不能获得创意的专利? Isn’基本上,大多数软件被归类为什么?

    我想我是误会了。一世’我很惊讶地看到雅虎!抢先于Google。

  6. 这是一个非常酷的博客。我做了人们的反向链接检查以找到它。您有很多有趣的想法,我喜欢您如何尝试弄清楚搜索引擎在做什么/在想什么。我通常会自己做,喜欢您的观点。

  7. 嗨比尔

    像往常一样出色的文章,如果您搜索,则可以将google中的搜索作为一个很好的例子“SF giants” you’将获得球队的上一场和下一场比赛。

    最好,

    汤姆

  8. 嗨鲍勃,

    同样,我的直觉告诉我,如果我搜索“attorney,” I’m likely looking for pages for an actual 律师, and if I’m searching for “attorneys,”我可能想要一个目录类型页面,我可以在该页面中进行搜索以找到律师的选择。

    I’我并不总是确定我们可以相信自己的直觉。如果yahoo正在跟踪查询会话,并且他们注意到大多数人在搜索“world cup”查看搜索结果,然后输入“world cup 2010,”他们可能会认为自己似乎在通过增加权重来做出自己的假设是合理的“world cup”结果包括“2010.”

    带有查询建议和填字游戏提示线索的有趣示例。我需要尝试一下’仍在继续。

  9. 嗨,戴夫,

    那里’这种方法可能会发现QDF或突发性的某些元素。搜索引擎可能会限制他们在查询日志中查找的回溯时间,以确保当他们审阅查询时,他们能够获得最新的用户行为信息。

    基于类别的结果也是一种有趣的方法。查询日志文件信息’提出一种基于类别来呈现搜索结果的方法是一件不好的事情。

  10. 嗨史蒂夫,

    It’很难确切说明Yahoo采用了哪种方法将查询日志文件数据合并到重新排名搜索结果中。我们不’无法确定他们是否正在使用此特定专利中描述的方法或其他方法,但是我们确实知道他们正在使用查询数据来分配位置来搜索不符合该要求的查询’明确说明地理位置。

  11. 嗨,扎克,

    您可以’不能获得创意的专利。您需要将该想法作为某种新颖,不明显且有用的实际过程来提出。专利中列出的发明人还需要通过其他一些关于是否批准其发明的阈值测试。请注意,该特定专利仍在申请中,并且’可能无法获得批准。

    但是,坦率地说,我撰写有关搜索引擎专利申请的博客文章的目的是’争论是否应该允许他们,而是要弄清楚搜索引擎在做什么,他们可能对搜索者和Web做出什么假设以及他们可能在哪些领域进行研究。

  12. 我想对我来说,问题是什么应该确定查询是否值得新鲜。如果我们回到世界杯的原始示例,我认为一旦比赛开始,对[世界杯]的搜索应该返回最新的比赛结果。但是,如果我在三月份进行了搜索,该怎么办?该专利建议,如果足够进行搜索(或类似搜索)的人最终点击进入今年左右的页面’在锦标赛中,结果应该偏向于此类信息,但这仅仅是因为’越来越多的人选择了’t mean that that’s what I’m looking for.

  13. 非常有趣的文章。我想Google一定会利用其他用户的搜索查询来获取相关性,这是有道理的,这就是Google Insights为您提供的功能。有趣的是,这里的每个人都假设,如果您搜索‘world cup’ you are automatically talking about the football 世界杯 (or soccer if you are in US!) but there are many other types of 世界杯s including the recent cricket 20/20 世界杯.
    我在Google数据洞察中搜索了‘world cup’它返回的数据很有趣。从SEO角度总结,了解Google如何以及为何对搜索进行排名‘world cup’如果您想定位关键字和点击量,则对于搜索需求而言非常重要。

  14. 正如戴夫所说:“QDF”。我同意这种方法,因为它可以帮助搜索者找到主题。最新信息。如果搜索者想要的东西不是SERP中弹出的东西’s they can use “suggested”或重新输入更具体的长尾搜索。不管哪种方式,它都在教育搜索者尽可能精确地满足他们的需求。总而言之;用户将在搜索以及如何进行方面获得更多的教育。

  15. 比尔,有趣的一面。我喜欢阅读您尝试分析搜索引擎正在尝试做的事情,并且我认为您通常会很高兴。我同意Dave和Lee的观点,QDF可能是’被某种方式触发。我可以’鉴于查询的数量惊人,他们无法想象他们将如何做到这一点’重新处理,但随后,他们大部分’做的事让我感到头疼。但是,您的帖子有助于简化我的流程。保持’em coming!

  16. 我希望SE’会坚持只基于与使用的搜索词相关的相关性显示结果页面的原则。
    许多搜索正在寻找的事实“world cup 2010” doesn’t neccessarily mean that I am interested in this years 世界杯. Maybe I am just interested in some general information about the 世界杯, and maybe there is a better general description on an 年长的 page.
    结果是我收到的内容质量较低–这不符合我的利益,当然也不符合SE的利益’s!

  17. 我在其他博客中读到,许多博客实际上是在使用各种技术删除帖子的日期,以抵消这种基于时间的影响。我应该这样做吗?

  18. 李嗨

    那里 are some similarities between this approach and what was described in a Google patent from 2007, which I wrote about in Google借助搜索引擎查询日志生成统计信息(热门趋势等).

    如果搜索引擎正在查看人们进行某些查询的频率,并确定所有突然出现的查询字词,则可能会对搜索结果进行排名,以在这些查询的搜索结果中显示更新的内容。那里’类似于Yahoo专利中的内容,尽管其中没有太多关于跟踪查询频率随时间推移以查看是否对特定主题感兴趣的讨论。

    I’我不确定这两种方法是否真的有助于教育搜索者如何成为更好的搜索者,但对于希望查找有关某个特定主题的信息的搜索者可能会有所帮助,’不知道哪些查询字词可能会为他们带来最佳结果。

  19. 嗨鲍勃,

    在某些方面,该专利中的方法确实像它’s Yahoo’与Google会面的方法’s “查询值得新鲜” algorithm.

    我认为我们将看到所有主要搜索引擎做出更多尝试,以试图理解我们在搜索时使用的查询背后的意图,其中一些将比其他一些更有帮助。我同意–应该如何确定查询是否值得新鲜?

    在您提供的示例中,关于三月搜索世界杯,以及在锦标赛开始后的两周内搜索世界杯,我希望在2010年的世界杯结果中能给予更多的重视两周的时间,这是因为查询会话期间的查询量和优化量增加,表明对3月份进行的搜索的兴趣有所增加。

  20. 嗨,埃迪,

    非常好点。我故意选择“world cup” over “world series”举例来说,因为有太多体育赛事将自己称为“world series.”我知道还有其他“world cups,” but I decided to use the football 世界杯 because it’仅有几周的路程。

    搜索引擎也有可能在此信号之外也查看其他信号。如果您进行个性化搜索,并且您的网络历史记录显示出对板球的明确定义的兴趣,这也可能导致对搜索结果赋予不同的权重,那么Google如何解决这两种不同的算法?它会尝试向您显示更多板球成绩,并为2010年足球/足球锦标赛带来更新鲜的成绩吗?

    我同意您对搜索需求可能如何影响关键字定位和点击量的理解。那’我认为这一特殊专利申请足以引起人们关注的部分原因。

  21. 嗨,Doc,

    感谢您的客气话。

    We know that Google is doing something with the frequency of queries, 通过 looking at their search logs and using statistics to determine how often those queries are used and if there is a burst of interest in a specific topic. If the patent filing I wrote about in my link from 4 comments up is one of the ones behind QDF (a decent possibility), then it shows how Google might address situations like this where it might make sense to boost pages that include the year 2010 in queries for 世界杯.

    正如我在上面的评论中指出的,这是Yahoo’的专利申请’微软可能也在做类似的事情。一份有趣的论文值得您关注’对主题感兴趣的是Jon Kleinberg的主题: 流中的突发性和层次结构 (pdf)

  22. 嗨,Per,

    我理解为什么您希望看到与您输入到搜索引擎中的查询词最相关的页面,但是似乎搜索引擎正在探索其他相关方面。从纯关键字匹配类型的方法开始,他们正在尝试比匹配关键字更多地匹配搜索背后的意图。

    从积极的方面来说,他们不是’更改您的原始查询,例如“world cup” to a new one “world cup 2010”,但他们正在推动“world cup 2010”结果,因此它们在搜索结果中的排名较高。您仍然应该看到与之相关的重要结果“world cup”但是您可能需要在搜索结果上稍稍向下看才能看到某些排名较高的页面。

    这不是’一定是一个问题“older” pages versus “newer”网页,用于Google评论中的所有讨论’■查询值得新鲜度(QDF)。如果更多的搜索者正在搜索“world cup 2006” than “world cup 2010”, then we would possibly be seeing 年长的 pages given more weight than 较新的 ones.

  23. 嗨,马克,

    该专利申请不是’真的是想向搜索者展示“newer’ pages, over 年长的 ones. I wouldn’t建议任何人都删除发布日期,而我讨厌到达一个缺少日期的博客帖子,这使我无法知道它最初是何时写的。

    更好的建议可能是预期该搜索者’s attention has changed, or will likely change, on a particular topic and take positive steps. For example, if you have a site about football/soccer, and a blog post about the 2006 世界杯, instead of removing the blog post, it would probably be better to create a new page about the 2010 世界杯.

    看我的帖子: 重新介绍内容:将事件页面从暂时性转变为常绿

  24. 嗨,比尔,

    知道是否有任何搜索引擎正在查看用户会很有趣’s location or previous searches rather than assuming its the football(soccer) 世界杯 they’re interested in. In some countries users may be more likely to be looking for information on a cricket or rugby 世界杯 perhaps?

  25. 菲利普(嗨)

    Good question. 那里 are a wide number of potential reasons why a search engine might rerank search results, and more than one of those reordering of results may be in effect when we perform searches.

    我们知道Google会根据位置和以前的搜索来更改您看到的结果的顺序,’过去曾撰写过有关Google的专利,白皮书和博客文章的文章,这些文章描述了如何以及为什么对这些结果进行重新排序的许多原因(尽管我们可能会做出很多选择’t know about).

    It’有趣的是,雅虎还深入研究了他们的查询日志,并查看了与不同搜索相关的统计信息,以更改您看到的结果,并考虑了雅虎采用的方法与Google所采用的方法有何相似或不同。

    搜索引擎可能会对显示足球(足球)结果有一些偏见“world cup”超过板球或橄榄球的结果,但我还没有’过去一直在搜索足球(足球)或板球或橄榄球。我不’我们不知道在美国,橄榄球(板球)是否比橄榄球或板球有很多基于国家的偏见。如果我查看Google搜索解析,则比较“rugby 世界杯,” “cricket 世界杯,” and “football 世界杯”在过去的12个月中,我在美国的搜索结果显示了对足球搜索结果的兴趣稍有增加,这主要是因为搜索量在过去一个月左右有了很大的增长。

    但是Yahoo的有趣之处在于,大多数的热门搜索结果“world cup”在雅虎似乎集中精力“world cup 2010”结果。可能是那些’t排名,根据相关性和重要性,甚至是流量水平的提高,都是最高的结果。

    我一定要查看更多的搜索结果才能了解Yahoo是否正在使用本专利申请中描述的过程,但是由于专利申请的原因,我们现在知道这是一个我们可能要提出的问题–当提交给搜索引擎的许多查询中都包含了年份或其他基于时间的指标时,雅虎是否会给予更大的重视?

    对于做这样的事情的人来说,重要的是要问像你自己这样的问题–还有哪些因素会影响这些搜索结果。

  26. 谢谢你的帖子。一世’d希望把这篇文章作为论文发表来告诉大家。如果我们在搜索引擎上搜索’我们的职责是尽可能具体,而不是等待引擎将检查我们的想法。谢谢

  27. 嗨阿拉曼,

    有时人们搜寻唐 ’他们对搜索的主题了解不多,这可能就是为什么他们首先搜索的原因。在这种情况下,可能很难“尽可能具体。”

  28. 嗨,比尔,

    我完全同意您的意见,几天前我正在寻找“多伦多美酒节” and all the results were for this year 2010。

    我认为就事件而言,Google通常会在结果中显示最新文章,以提供时间表,时间安排等

    我还注意到,如果用户正在寻找有关事件的更多信息,它也包括事件的Wikipedia页面。

  29. 嗨,Max,

    好的例子– thanks.

    当我的帖子是关于雅虎的’在专利申请中,我确实认为Google和Bing都同样尝试关注涉及重复事件的查询。

  30. 嗨,比尔!

    我真的不知道’无法理解Yahoo为什么使自己变得如此复杂。它’谷歌在搜索引擎市场拥有如此大的市场份额并不奇怪。

    您个人认为Google会在10年左右的时间里在美国和欧洲成长壮大的竞争对手吗?

    最好的祝福,
    阿尔宾

  31. @Albin考虑到Google的成立只有13年的时间,我’d说十年将是永恒。 ðŸ〜‰

    可以想象,一个新来者(尽管可以承认,这并不容易)明天就会出现,而让Google死在泥土中的时间要短得多。以互联网而言,五年甚至是很长的时间。

  32. 您好Albin和Doc,

    I’多年来一直在想关于Yahoo。 Google长期以来一直在网络搜索领域保持领先地位,但是’在他人的强力收获和Google的失误后,他们可能会发现自己与一个或多个严肃的竞争对手竞争。

    It’Doc可能会指出,挑战Google的挑战者可能来自参与企业和桌面搜索的公司以及新来者。正如Doc所指出的,十年是网络上的永恒。

评论被关闭。