搜索引擎如何扩展查询中的缩写

分享是关怀!

当搜索引擎的访问者在查询中使用缩写或扩展缩写时,’他们可能会在一些值得一游的页面上丢失。

For example, use Yahoo to search for [NASA Moon bombing] and compare the results to a search for [国家航空和航天局 moon bombing] and you’会看到一些非常不同的结果。

Should those search results be more similar? 美国宇航局 and 国家航空和航天局 are the same organization. Then again, 美国宇航局 is also an abbreviation for:

  • 北美萨克斯风联盟
  • 全国汽车运动协会
  • 全国建筑学生协会

那里’s also a Nasa mountain in Sweden, which is home to the Nasa Silver mine. 那里’就是这个名字的瑞典乐队,嘻哈歌手,DJ乐队和位于哥伦比亚的美国航空航天局的人。

搜索引擎应如何处理查询中的缩写?如果这样做可能会改善搜索结果,是否应该将那些查询扩展为包括较长的扩展版本?如果网页在该词组中排名较高“国家航空和航天局”但是对于“NASA”应该显示给使用“NASA” in their query?

那’雅虎上周发布的专利申请中提出了这个问题。

Web搜索中的缩写处理
由邢伟,彭富春和Benoit Dumoulin发明
分配给Yahoo
美国专利申请20090259629
2009年10月15日发布
申请日期:2008年4月15日

抽象

用于处理Web查询中的缩写的方法包括:

针对与搜索引擎已接收或预期要接收的查询词相关的多个潜在缩写,建立多个可能的单词扩展的字典;

接受包含缩写的查询;

如果扩展是正确的概率高于阈值,则将该缩写扩展为多个单词扩展之一,其中该概率是通过考虑查询中的缩写上下文来确定的,其中该上下文至少包括锚点文本;

将带有扩展缩写的查询发送给搜索引擎,以生成与该查询相关的搜索结果页面。

将缩写词与缩写词相关联的第一步就是查看锚文本,该锚点文本指向的页面可能同时包含缩写词和可能与这些缩写词对应的词扩展。如果我们发现带有“NASA”在指向页面的锚文本中,我们还看到“国家航空和航天局”在指向许多相同页面的锚文本中?如果这样,可以将以下内容添加到缩写词典中:

  • 美国宇航局 = 国家航空和航天局

但是,北美萨克斯风联盟的成员在搜索时会对此有何感受“NASA爵士乐比赛”搜索结果充满了在月球上着陆的竞赛?

It’该缩写字典可能也可能包含其他来源的信息,但是如果有的话’s具有足够高的概率,可以通过使用缩写来引用扩展版本,然后’使用缩写词的查询也可能包含扩展单词版本的结果。

搜索引擎在进行此类查询扩展时必须格外小心。该专利为我们提供了以下查询示例,其中的缩写/单词“aim”意味着不同的东西:

  • 目标下载 – it’s likely that “aim” stands for “AOL即时通讯工具。”
  • 目标 stock – 目标 is probably an abbreviation for “另类投资市场”
  • 目标 at improvement – 目标 is probably being used as the word “aim”而不是用作缩写。

那里 are at least three ways a search engine might learn about abbreviations:

  • 查询会话 –如果人们在寻找“aim download” don’如果看不到相关结果,他们可能会将查询重写为“AOL即时通讯工具下载。”在来自搜索引擎的查询会话日志文件中查看这种类型的用户数据可以帮助构建该词典,以及如何在不同的上下文中使用缩写。
  • 锚文字 –如果将相同页面链接到不同的文本(包括缩写词和这些缩写词的扩展词版本),则可以注意到缩写词和扩展词之间的联系以及使用这些词的上下文– such as “aim download”和AOL Instant Messenger下载”指向同一页面。
  • 点击日志 –人们在同一页面上单击时会出现在针对不同查询的搜索结果中,这意味着这些查询可能是相关的。如果更频繁地发生’他们更有可能是。

所有这三种方法都是基于实际的人类参与,是否涉及链接,在搜索结果中选择页面以及在搜索有关主题的信息期间优化查询。搜索引擎可以轻松访问所有信息,并且可以使用这些资源来构建统计模型,该模型可以告诉搜索引擎何时扩展缩写是一个好主意。

专利申请案设想处理不同形式的缩写短语,例如 首字母缩写词 ,作为一组字母发音,并包含短语中每个单词的第一个字母,例如“SARS,” or 初始论 使用每个字母全部或部分发音的单词,例如“IRS”发音为“I,” “R,” “S,” or Portmanteaus 由两个或多个单词组合而成的单词,例如“Don’t,” or a 伪混合,这是一种带有多余或省略字母的缩写,例如“UNIFEM,” for “联合国妇女发展基金。”

当搜索引擎在查询中找到可能是这些缩写类型之一的单词时,它可能会执行以下三种操作之一:

  • 扩展查询词以包括包含缩写的页面,包含缩写的扩展版本的页面以及包含两者的页面。
  • 向搜索者提供有关该缩写的扩展版本的查询建议。
  • 忽略扩展版本,只返回缩写的页面结果。

结论

如果您要搜索的内容,并且在查询词中使用了缩写,’尝试使用缩写形式扩展相同的查询是一个坏主意,特别是如果您认为存在’您可能会错过一些东西。如果你’重新搜索有关航天局的信息,不搜索国家航空航天局就搜索NASA可能不如搜索有关北美萨克斯管联盟的信息那样糟糕,并且您只使用了“NASA”在您的搜索中,而不是缩写的扩展版本中。

如果您要在Web上发布包含缩写的内容,’在同一页面上使用缩写和扩展版本,并查看该缩写还可以代表什么以及其搜索结果是什么,通常不是一个坏主意。在前20个结果中,我认为“NASA”在Google中,除第9个结果(涉及DJ集体N.A.S.A)和第10个结果(有关赛车组织,美国国家汽车运动协会)以外,所有返回的页面均指向航天局。没有萨克斯管演奏者快速浏览前50名的结果。

该专利申请来自Yahoo,但它’s possible that researchers at 谷歌 and Bing are considering many of the same ideas.

在搜索时以及为搜索者撰写内容时,请务必谨慎使用缩写。

分享是关怀!

关于19条想法“搜索引擎如何扩展查询中的缩写”

  1. Bill,您是否认为登录后执行搜索的用户有更多机会准确地找到他们想要的内容。或涉及首字母缩写词?或者就此进行任何搜索。迪登’搜索工程师不需要从一开始就登录就可以为自己创造更多的工作吗?

  2. 嗨,比尔,

    那 was a great insight about the 谷歌’s treatment to abbreviations. 我不’尽管此信息对我将来的使用很有用,但我的博客中没有任何缩写。

    感谢分享。

  3. 有趣–我的领域是专利和现有技术搜索,人们通常会对他们选择的搜索词非常谨慎–但是网络搜索仍然是我们工具箱的一部分。网络搜索变得越聪明,我们失去控制确切搜索内容的能力就越多–对于快速搜索而言,这可能是一件好事,但对于深入的调查而言,则不是一件好事。我想这课是这样的:’始终了解您的搜索引擎可能总是很不错的“helping” you with!

  4. 嗨,迈克,

    我不’t think that it makes a difference whether or not someone is logged in to their 谷歌 Account and personalized search when it comes to 谷歌 handling abbreviations one way or another, much like it doesn’拼写错误似乎有所不同。

    I also think that if 谷歌 had started out requiring people to login before searching that there would be a lot less searches, much like we often see abandonment at many shopping carts on ecommerce sites that require someone to create an account before buying something.

  5. 嗨,拉维,

    谢谢。我认为我们经常将很多缩写视为理所当然,例如“scuba,” which is short for “自给式水下呼吸器”似乎已经演变成具有自己含义的单词。

    我知道我写的时候经常使用缩写’甚至可以考虑在不提供缩写或首字母缩略词扩展名的情况下使用。例如,当我写一些新音乐的时候,我可能会提到CD而不是光盘。它’可能是搜索引擎赢了’t将该CD与“存款证,”但是专利文件中描述的方法提供了一些理解搜索引擎如何能够区分的方法。

  6. 克里斯汀,您好

    我同意。我不这样做的原因之一’t like using 谷歌’专利搜索是使用的算法不是’透明度足以让我了解在此进行搜索时可能会丢失的内容。我不’不在乎最受欢迎的专利,或者“highest ranked”专利或被引用次数最多的专利。我只想查看所有带有文字的专利,’m looking for.

  7. 嗨,比尔,

    究竟!虽然,另一方面,我的一些同事喜欢使用Google Patent Search作为更详尽的调查的补充,因为它似乎神奇地获得了一些非常好的专利,这些专利有时可以用作探索的良好起点。分类等。我猜只要他们继续开发快速修复程序,我们’ll keep using them!

    It’同样有趣的是,您偶尔会听到语义搜索将完全解决我们所有的专利搜索问题– but it’同样的问题。如果你可以的话’看不清楚算法在做什么,您如何知道可能遗漏了什么?专利搜索需要太谨慎才能完全放弃布尔搜索,直到它变得100%可靠为止。

  8. On 谷歌, 如果我输入:
    美国航空航天局
    第十个结果是
    美国宇航局 Human Space Flight
    spaceflight.nasa.gov
    如果我输入:
    美国宇航局
    第十个结果是
    美国宇航局 Earth Observatory: Home
    Earthobservatory.nasa.gov
    因此,Google对于缩写及其扩展的对应部分和复数等返回不同的结果。我觉得’s之所以合适,是因为它使搜索者可以从字面上准确地确定他们要寻找的内容。您关于为网络编写的观点比尔已被广泛接受。如果您想使用缩写词和扩展短语,则一定要将它们都包含在页面文本中。如果您正在寻找东西,它’最好使用各种相似的短语,甚至“reversals”也一样特别是在有地理位置的词组中。您可以搜索南佛罗里达州的水肺潜水训练,也可以搜索南佛罗里达州的水肺训练。问候–

  9. 那 is truth, everyone could sometimes be misguided 通过 the search engine but I think that it would be extremely difficult for those searching programs to make this problem disappear. Again, some search results are fully matching the requested phrase, I think that the key to proper results lies in using proper keywords. Sometimes you can add to 美国宇航局 e.g. Sweden, or Saxophone. And the results will come out properly.

  10. 克里斯汀,您好

    The chance of missing something important does mean sticking with boolean searching, though I can see how some people might like using something like 谷歌’的专利搜索以扩大搜索范围。语义搜索将面临一些相同的问题。

  11. 嗨,新泽西州网页设计,

    有趣difference in results that you received based upon the use of allcaps. It definitely is worth exploring variations of words and phrases, when searching and when writing. Sometimes the results you see in search results for seemingly minor variations are very different –可能发生这种情况的另一个领域是复合词和分解词。

  12. 嗨,塞思,

    好点。有时我们会向搜索引擎提出很多要求,但有趣的是,他们发现它们如何尝试解决此类潜在问题。有时很难知道正确的关键字,尤其是当您搜索自己不熟悉的主题时’t know much about –这通常是首先搜索的原因。

  13. 嘿,比尔,

    我想我正在考虑登录表单的内容,下面有一个复选框,内容如下:“记住我/让我保持登录状态”,而登录将是一次性事件。不会’是否让搜索引擎更深入地了解某人想要什么作为搜索结果?

    例如—如果我在登录时搜索并表示有兴趣购买萨克斯风,’s说两个星期前,然后搜寻“NASA” today, shouldn’t they lean towards showing me 北美萨克斯风联盟 instead of the more popular 美国宇航局 search results…if not, I’我不确定我是否完全了解Google帐户和个性化搜索的目的。

    最好,
    麦克风

  14. 嗨,迈克,

    I’我不确定这会有所帮助。想象一下,程序员往往会大量搜索Java技巧和建议,而他们却有机会访问印度尼西亚的一个名为Java的岛屿。他开始搜索有关Java的信息,过去的所有搜索都表明他想要编程结果。大多数情况下,搜索的意图取决于当前搜索的情况和情况,而不是过去的历史。

    谷歌’的个性化搜索方法可能对搜索有所帮助,但是它支持过去的搜索历史并浏览情境中对信息的需求,并且在情境需求与过去的历史有所不同的情况下,它可能会有所帮助比起搜寻者’•使用个性化搜索。

  15. 感谢您的出色解释,比尔。几乎听起来好像需要教人们如何进行搜索 ’仅提供一个框来填充。没有一个主要的引擎提供任何明显的链接来帮助人们了解他们应该如何搜索。我想知道有多少人点击‘Advanced Search’ link on 谷歌. I’ve通常认为接下来的页面会吓走大多数搜索人群。对不起,如果我’我有点偏离主题。

  16. 嗨,迈克,

    您’重新欢迎。感谢您提出一些有趣的问题– 我不’认为他们离主题太远了。在该专利中,搜索引擎试图根据许多其他搜索者的过去结果以及他们在搜索会话中使用的查询细化,以及这些搜索者所点击的结果或锚文本中的内容,来了解搜索背后的意图。由内容发布者使用。因此,我们可能会问,这是否有助于我们的程序员在开始搜索类似““java history”?有关搜索的教程对搜索者有帮助吗– I’m not sure.

  17. pingback的:Suchmaschinen&SEO – 2009年10月-内部SEO

评论被关闭。