头URL和尾URL和Bing’补充指数?

分享是关怀!

搜索引擎可能使用两组索引–一个用于倾向于在更多搜索和更多网页上显示的查询字词,另一个用于更大范围的索引,其中包括’搜寻者和搜寻者搜寻的次数不多’不会出现在许多网页上。

通过仅从较小的索引中显示某些术语的结果,搜索引擎可以更快地检索有关包含这些术语的页面的信息。

搜索引擎如何知道在较小的主索引中要搜索哪些查询,以及在较大的索引中要搜索哪个查询?

I’过去曾写过一篇关于 来自Google的扩展索引,以及一项 Microsoft的补充索引,并且两项专利都主要关注如何设置这些索引。

Microsoft最近的一项专利申请描述了他们如何确定哪些查询可能使用较小的主索引,以及哪些查询可能同时使用较小和较大的扩展索引。

专利申请使用了基于 长尾巴 区分这些查询类型,指出某些查询可以通过以下方式更好地回答“head URLs,”有些更可能由“tail URLs.”

例如,当您搜索诸如“美国总统,” you’重新搜索许多其他人经常搜索的术语,该术语出现在Web上的许多页面上。它’s一个查询,很可能会由许多标题URL回答。

相反,如果您搜索类似“由美国国会图书馆编年史的1812年至1942年美国总统辩论”很有可能该搜索可能没有太多结果,如果有的话。如果存在解决该查询的页面,则它们更有可能位于尾URL上。

Microsoft专利提出了一种系统,用于预测哪些查询更可能由头URL回答,哪些查询更可能由尾URL回答。该系统被描述为使用机器学习过程做出这些预测,可以在以下位置找到:

用于查找针对尾URL的查询的系统
尹晓欣,Vijay Ravindran Nair,Ryan Frederick Stewart,刘芳,王俊华,蒂芙尼·库米·多森,王一民发明
分配给Microsoft
美国专利申请20100179929
2010年7月15日发布
申请日期:2009年1月9日

抽象

本文提供了用于改善的查询分类和处理的系统和方法。如本文所述,可以使用基于机器学习的技术从一组训练数据(例如,从自动诊断系统获得的诊断数据和/或其他合适的数据)构建查询预测模型。

随后在接收到查询时,与查询相对应的一组特征,例如查询的长度和/或频率,查询中各个单词和/或单词组的字母组合概率,预先指定的单词或短语的存在可以生成查询等中的。

然后可以结合查询预测模型对生成的特征进行分析,以通过预测查询是针对头部统一资源定位符(URL)还是尾部URL来对查询进行分类。基于此预测,可以分配适当的索引或索引组合来回答查询。

这种多索引方法试图管理我们所知道的折衷方案,即在较小的索引的较高速度与较大的索引的较高信息量之间存在折衷。虽然这种多重索引是’t exactly new, we’Re告诉我们,用于对查询进行分类以确定哪些应查看较大索引而哪些应忽略该索引的常规技术是基于手动规则集的。

这些规则可能包括类似的内容,如果查询的词数或字数超过特定数目,则这些搜索应包括查看较大的索引。

如果搜索引擎可以提出一种自动的查询分类方法,而不是依靠一套严格的规则,它可能会在响应查询方面变得更加高效。

例如,假设搜索引擎有一个规则,即任何超过10个单词的查询都应同时使用较小和较大的数据库。现在,想象那里’一部热门电影,标题长11个字。较小的主索引中有很多页面可以提供有关该电影的相关信息,这很有可能。但是,根据大约10个单词的规则,当仅使用较小的索引可能更有效时,搜索引擎将同时查看较小和较大的索引。

查询功能

基于机器学习的预测系统将在确定查询是否更可能由头部URL或尾部URL回答时考虑许多功能。这些查询功能的一些示例可以包括:

查询频率 –与所有其他查询相比,查询和/或查询中的单词或短语在搜索中出现的频率。假设是,更流行的查询更可能与更流行访问的资源相关。搜索更受欢迎的查询可能会跳过较大的索引。

查询长度 –可以将查询的长度与其他功能一起考虑,以确定是否最好用头URL或尾URL来回答。如果单词的查询频率不高,则带有更多单词的查询更有可能由尾部URL回答。’如果非常高,那么它更有可能成为搜索较大索引和较小索引的候选对象。

来自查询的单词和/或短语的概率出现在索引内 –检查查询中单个单词和短语的概率,以查看它们在搜索引擎中出现的频率’的索引。如果查询包含流行词或短语,则较小的索引更有可能回答该问题。该预测过程可能没有使用搜索索引来查看这些单词或短语出现的频率,而是使用了预先生成的查找表来查找那些频率。

查询中的连续单词在页面上一起出现的频率 尽管某些单词的确经常出现在大量网页上,但它们可能并不总是一起出现在同一页面上。例如,如果查询包含短语“coffee 台,” while the terms “coffee,” and “desk,”在网页上频繁显示,它们在同一页面上显示的频率如何?如果不是很常见,那么对于搜索引擎来说,使用较大的索引进行查询可能不是一个坏主意。

查询中是否存在预定的面向尾的单词 –一些查询可能包含更可能针对尾部查询的单词,例如非常稀有的单词。

结论

来自避风港的较新站点的页面’取得了很大的知名度,或者仅仅是页面’由于它非常受欢迎,因此在较大的索引中比较小的索引中更有可能被发现。

当您搜索搜索引擎可能确定要针对主要术语的术语时,它可能包含较小索引的结果,而不收集较大索引的信息。避风港的页面’使其变成较小的索引可能不会出现在该查询的搜索结果中。

该专利申请旨在通过允许搜索引擎跳过必须在扩展索引或补充索引中搜索针对其分类为针对头URL的查询的过程,从而使搜索引擎更加高效。我们’最近一直有关于Google等搜索引擎基础架构升级的新闻’s咖啡因,可以使索引和搜索更加有效。

虽然它’这些基础架构升级可能会使像这种多索引方法这样的过程变得不那么重要,’容易想象,搜索引擎将尝试利用各种方法来提高其搜索效率,只要那些不’以有意义的方式损害搜索结果的质量。

分享是关怀!

7个想法“头URL和尾URL和Bing’补充指数?”

  1. 我同意您的最后一句话,只要不影响搜索结果的质量,效率和有效性,而是改善搜索结果,搜索引擎就可以改进,更新和更新其他内容。

  2. 嗨安德鲁,

    有时需要权衡取舍,某些网站的某些排名可能会受到影响,或者可能会导致排名变动而产生意想不到的后果。

    如果您发现自己网页的排名发生意外变化,则有时可能是由于您所做的事情或竞争对手所做的事情。有时可能是因为其中一个搜索引擎实施了更改。

  3. 是的,作为一名长期搜索引擎工程师,我’d说,对于搜索引擎而言,在性能方面要快是有道理的。所以即使有咖啡因’d假设google有两个索引。由于网络太大,无法只有一个索引。

  4. 嗨健

    效率和经济性似乎确实需要多指标方法。我们’很长一段时间以来,我们就知道Google有一个补充索引–毫无疑问,这并不奇怪。我认为这项Microsoft专利的有趣之处在于,我们’我们可能已经对一种方法有一定的了解,该方法可能会使补充索引方法更加有效。

    像你一样,我不’t think Google’对咖啡因的基础架构更改也消除了对扩展索引的需求。

  5. 我同意您的最后一句话,只要不影响搜索结果的质量,效率和有效性,而是改善搜索结果,搜索引擎就可以改进,更新和更新其他内容。

  6. 嗨,托马斯,

    究竟。例如,谷歌’s咖啡因更新’排名更新,而是搜索引擎所基于的基础架构的改进。不过,这样做的影响是,由于新基础架构的效率更高,Google能够尝试过一些过去可能无法执行的网页爬取,索引和排名方法。

评论被关闭。