搜索引擎如何使用同义词重写搜索查询

Sharing is 汽车ing!

Google告诉我们有关使用同义词重写搜索查询的方法

搜索词“automobile”在Google,搜索引擎可能会重写您的搜索,以包含该单词的结果“car” as well since it is a synonym of the word 汽车. Accidentally misspell the word as “automobile”Google可能会自动更正您的拼写错误并搜索“automobile.”

然后搜索单词“driving”并且Google可以通过使用称为词干(stemming)的过程来扩展单词的查询,以查找单词(driv-)的词根并为其添加共同的结尾,以提出并在搜索中包括诸如“driving,” and “driver.”

这种查询扩展旨在为搜索者提供更好的搜索结果。这种扩展查询的方法可能尚未实现(尽管有时至少在拼写更正中似乎会出现),并且可能并非在所有搜索中都可能发生。

重写搜索查询的典型方法包括:

  • 词干
  • 拼写错误的更正
  • 通过执行诸如使用原始查询中出现的单词的搜索引擎同义词等操作来增强搜索查询

Google的几本白皮书和一个新发布的专利申请探讨了Google可能使用机器翻译来查找单词同义词以扩展您可能使用的搜索词的某些方式。

那里 are a few different ways to 重写搜索查询 using synonyms that can be done.

1)一个单词的同义词可能会在同义词库中找到,这些同义词已被专家识别,或者是一个词法本体(单词的组织词汇)。

2)可能会从其他搜索查询中识别出同义词,这些搜索查询在语法上与原始查询相似(短语中单词的顺序和关系)。

这些方法的一个挑战是,当一个单词具有多个潜在的同义词时,它们的含义就千差万别。例如,在查询中“How to 船 a box,” the word “ship”可以有诸如“boat” and “send.”

If that query is rewritten based upon the 船 meaning, it might provide very irrelevant search results to a searcher, who probably don’希望看到与拖网渔船有关的搜索结果。

Google专利申请涉及的方法也在Google的论文中进行了探讨; 将查询转换成片段以改善查询扩展 (pdf),以及统计机器翻译,用于答案检索中的查询扩展(pdf)。

该专利申请列出了一些发明人,他们也是这些论文的作者:

机器翻译查询扩展
由Stefan Riezler,Alexander L.Vasserman发明
分配给Google
美国专利申请20080319962
2008年12月25日发布
提交日期:2008年3月17日

抽象

用于扩展搜索查询的方法,系统和装置,包括计算机程序产品。一种方法包括:接收搜索查询;基于接收到的搜索查询中出现该术语的上下文,选择该搜索查询中的术语的同义词,该同义词已从该术语的统计机器翻译中得出;以及扩展了接收到的信息。具有同义词的搜索查询,并使用扩展的搜索查询来搜索文档集合。

替代地,另一种方法包括:接收搜索文档语料库的请求,该请求指定搜索查询;使用统计机器翻译将指定的搜索查询转换为扩展的搜索查询,该指定的搜索查询和扩展的搜索查询位于文档中。相同的自然语言,并响应请求,使用扩展的搜索查询来搜索文档集合。

使用统计机器翻译(SMT)重写搜索查询

该专利申请书详细介绍了Google如何使用统计机器翻译将单词序列从一种语言翻译为另一种语言,以了解不同语言的单词之间的关系。如果要详细了解统计机器翻译的工作方式,可以使用它’值得查阅专利申请中的描述。

Google研究博客,发表于2006年,标题为 统计机器翻译实时,提供了更简单的解释:

包括我们在内的几种研究系统都采用了不同的方法:我们向计算机提供数十亿个单词的文本,既包括目标语言的单语文本,又包括由两种语言之间的人工翻译示例组成的对齐文本。然后,我们应用统计学习技术来构建翻译模型。

那么,SMT如何帮助重写搜索查询?

这个单词“ship”在特定上下文中可以像单词一样翻译成另一种语言“transport”可。在这种情况下,“ship”是这个词的同义词“transport”。因此,我们上面的查询示例“how to 船 a box”可能与“how to 运输 a box.”

搜索可能会被重写为包括两个查询– “how to 船 a box” as well as “how to 运输 a box.”

机器翻译系统还可以收集有关同一语言单词的信息,以了解这些单词之间的关系。

训练统计机器翻译模型的方法

第一步是收集可能来自许多不同来源的单词训练集,例如:

1)查看问题答案对以重写搜索查询

想象一下,查看尽可能多的常见问题页面,然后比较不同(或相似)回答相同问题的方式。采取这些问题和答案对,并将其用作统计机器学习的培训机构可能会有所帮助。

2)查看查询和摘要对以重写搜索查询

在搜索引擎中查看查询的搜索结果以及这些结果的摘要。也许更仔细地看那些使用这些查询词进行搜索的人选择和查看的频率更高和/或更长时间的结果(可能表明这些摘要与搜索的查询词更相关)。

这些查询和摘要对也可用作统计机器学习的训练机构。来自文档本身的文本,指向这些文档的链接中的锚文本以及这些结果中出现的单词的其他信息,例如是否在页面标题中使用了它们,或者它们是否是与之相关的文本字符串的一部分也可以考虑使用查询。

3)查看短语和释义对以重写搜索查询

使用同义词重写搜索查询

就像我们上面的例子“how to 船 a box,” and “how to 运输 a box,”这些短语可以用另一种语言翻译成相同的术语,并且该术语可以合理地翻译回任一个短语。

短语和释义也可以由语言专家手动提供。可以从该方法中收集大量同义词和类似短语。

查询如“如何成为泥瓦匠”可能会产生翻译和重写的搜索查询“如何当瓦工”使用这种方法。

使用上下文映射和同义词来重写搜索查询

同义词可以在搜索过程中找到,也可以事先准备好,并与上下文映射一起使用,该上下文映射注意可能出现在查询短语中某个单词左右两侧的单词。可以在进行搜索之前准备上下文地图。

例如,与查询“how to 领带 a bow,”该查询中“ tie”一词的左右上下文是“how to” and “a bow.”

In the context map, the word 领带 may be associated with two synonyms, `equal` and `knot`. 这个单词“knot”可以选择作为以下内容的同义词“tie”因为它也很适合在的上下文映射中找到的上下文中“how-to” and “a bow.” The query might be rewritten to something like [how to (tie or 结) a bow].

结论

当将拼写错误作为搜索查询的一部分输入Google时,搜索引擎有时会在结果顶部显示一条消息(称其为提示),询问您的拼写是否正确。其他时间,Google只会显示拼写错误的版本和更正的版本的结果混合,从而扩大查询范围。有时,Google只会显示正确的单词结果。

我们不’无法确定Google是否使用词干进行查询扩展,或者是否使用同义词进行查询扩展。但这是非常真实的可能性。如果您搜索包含单词的查询“automobile” and the word “car”也会产生非常相关的结果,因此可以这样重写搜索查询是合理的。

如果你’对搜索引擎如何重写搜索中使用的查询以及他们如何决定在该查询扩展中使用哪些单词感兴趣,’花费一些时间来研究该专利申请以学习如何进行这种重写是值得的。

添加时间:2009年1月1日–

Google确实告诉我们,他们在其上使用词干 网页搜索帮助 页:

单词变化(词干)

Google现在使用词干技术。因此,在适当的时候,它不仅会搜索您的搜索词,还会搜索与某些或所有这些词相似的词。如果您搜索宠物狐猴的饮食需求,则Google还将搜索宠物狐猴的饮食需求以及其他相关字词。您搜索的字词的任何变体都会在每个结果随附的文本片段中突出显示。

I’撰写了一些有关搜索中同义词的文章。以下是其中一些:

上次更新时间为2019年7月4日。

Sharing is 汽车ing!

22想法“搜索引擎如何使用同义词重写搜索查询”

  1. 有趣。是的,Google经常这样做,他们肯定会使用同义词,尤其是当搜索检索到一小部分结果时。

    因此,我通常在文章中为关键字添加尽可能多的同义词。如果Google使用同义词,那么我的文章将占据上风,因为Google可以凭经验验证我的文章的主题–也许对我的文章比其他文章更有力–并将其与查询匹配…也许。 ðŸ™,无论哪种方式,’t hurt. lol.

  2. 我想知道,在临终关怀的情况下,机器翻译是否会返回一些错误的结果,这被人们误解了,因此在网络内容中可能经常被歪曲。临终关怀站点本身普遍将高置信度的内容用于对临终关怀的误解,并在这样做时说明这些误解。

    这个想法是我几周前询问普林斯顿大学时的经历引起的’的WordNet词汇数据库“hospice”并发现它与“hospital” and “medical,” which in some was are antithetical to 临终关怀 in that they practice curative 汽车e rather than palliative 汽车e.

    某些算法误导了WordNet使其脱离目标关联,不是吗?

  3. 嗨,雪莉,

    谢谢。我认为,不管您当前是否在使用Google所描述的一种方法,在页面上包含您认为重要的单词的同义词都是一种很好的做法。它’在为页面开发强大的内容时,您自然也会这样做。

  4. 嗨,迈克尔,

    您提出了一个非常好的观点。我去了Wordnet尝试其他一些术语,但是在线版本似乎今晚离线。

    机器翻译以及使用同义词扩展查询可能会导致结果不正确’t completely on target when it comes to the actual meanings of words. We can easily exchange the word 汽车 and 汽车 in a conversation, and likely not have any problems when it comes to the meanings of those words. But others aren’如此紧密相关。

    Wordnet did get many of its synonyms from thesauruses, and if I look up 临终关怀 at thesaurus.com, it provides “hospital” as one synonym.

    Wordnet仍在开发中,目前看来部分由Google资助。

    但是你提出的观点是非常好的– we have to take 汽车e not to confuse synonyms with definitions, and keep in mind that a synonym might be useful in expanding some queries, but potentially could also result in misleading searchers if used.

    A “passenger vehicle”也可以视为的同义词“car” or “automobile,” but planes, trains, bicycles, stage coaches, and 船s are all 乘用车s as well. Part of why I like looking at patent filings like this one is to keep an eye on things that could possibly be a problem, like 医院 search results when someone is looking for a 临终关怀.

  5. 非常有趣,谢谢。人们指出由统计机器分析引起的(有时是可笑的)不准确性,但在许多情况下,这比人类分析更为准确和一致。在 金妮 we’ve结合使用来构建语义电影搜索引擎的同义词词汇表。

  6. I’可以进行拼写更正…但是从SEO的角度来看,同义词使生活变得非常困难–我们如何猜测Google会产生哪些词?从搜索的角度来看–同义词可能有助于产生更广泛的结果。

  7. Isn’这个LSI?我认为所有搜索引擎都已经使用了一段时间了 …

    我不’t know if you mentioned this but there is a query in google it goes like this: 您 add ~ in front of a word and google returns a synonim for example if you write: ~car it will return several synonyms like 汽车s, BMW and so on.

  8. 嗨菲比

    谢谢。珍妮看起来很有趣。

    嗨,詹姆斯,

    好点。使用同义词进行查询扩展可能会使针对单个术语的单个页面优化更加困难,因为可能会获得与同义词相关联的更好结果。解决方案可能是构建包含同义词的更高质量的页面。

    嗨,敢

    感谢您询问潜在的语义索引。此过程不是LSI。 LSI上有一些不错的资源值得关注:

    潜在语义索引 –来自LSI的人,在白皮书中对此进行了撰写并获得了专利。

    SVD和LSI教程1:了解SVD和LSI
    关于奇异值分解(SVD)和潜在语义索引(LSI)的教程,其优点,应用和局限性。涵盖了来自搜索引擎营销商的LSI神话和误解。

    如果你 want to learn the math behind LSI, and how it works, this set of tutorials explores the math and many of the myths behind latent semantic indexing.

    我没有’没提到Google使用波浪号(〜),但他们确实 告诉我们 可以用来搜索同义词。不确定是否遵循与本专利申请中描述的过程相同的过程,或者不确定是否可以使用与此过程类似的上下文映射。我会四处看看是否有’有关波浪号同义词查找器的工作原理的更多信息。

  9. 我想知道我们是否看到了Google的第一个实例’整合了2006年购买的Orion算法。这里不仅利用语言关系,还利用概念关系。

  10. 我可能是错的,但从表面上看,这种解决方案似乎可以使搜索结果同质化,并且使关键字的排名越来越难。似乎这也可以通过增加对主要关键字的需求,而不是像现在这样细分更多关键字,从而帮助其增加广告收入。

  11. 嗨玛丽安,

    好问题。购买Orion算法后,发明人发表声明说,他希望在18个月左右的时间内完成工作。它’比这更长。

    但是,该算法旨在获取出现在搜索结果中找到的页面上的关键字,并根据这些关键字提供建议的搜索查询。它’与本专利申请中发现的概念不同。

    嗨,迈克,

    您提出了一个有趣的观点。一世’m not sure that it’符合搜索引擎的最大利益,以吸取响应查询可能出现的结果数量。如果搜索结果的质量似乎急剧下降,’人们很有可能会转向其他搜索引擎。

  12. 哇,谢谢你。 Google〜查询不会完全搜索同义词 …尝试例如类型“~mobile” and you’ll get Nokia! Nokia is not a synonym for 移动!

  13. 嗨,马克,

    您’re right – the tilde (~) doesn’始终提供同义词,或者至少提供我们可能认为的同义词。

    虽然很多人可能会想到“mobile”当您提到诺基亚时,它不是’t really a word that could be interchanged and produce the exact same meaning (or even a substantially similar meaning). A Nokia phone is usually a 移动 phone, but a 移动 phone doesn’不必是诺基亚手机。

  14. 很棒的文章!

    我过去一年或一年以前曾经做过SEO,但愿那时我能掌握这些信息。我有一个当前网站,我付钱给了Optimize,因为我发现我的做法有点过时了,因为该行业一直在变化,尤其是随着谷歌不断改变搜索算法。我们使用诸如买船和卖船等关键字,而我从未真正想到过使用同义词。我想这很有道理。真的很简单。无论如何,我在四处找寻您的精彩文章。

    您是否有关于现场SEO与场外SEO的文章?

  15. 嗨,雷恩,

    感谢您的客气话。

    SEO的某些方面’改变,我认为主要是因为搜索的目标确实是避风港’t changed much –搜索引擎希望向搜索者提供符合其搜索意图的页面。

    如果您创建搜索引擎可以对它们进行爬网和编制索引的页面,提供想要查找您所提供内容的搜索者可以从中找到价值的内容,并在页面上使用他们会搜索并希望在您的网站上看到的文字,’您已经完成了SEO的大部分工作。

    在研究网页的关键字时, ’始终可以帮助您考虑受众可以用来查找页面的一系列单词,包括同义词。很高兴看到该专利描述了搜索引擎如何看待这些专利,但这并不奇怪。

    I’撰写了许多有关现场和非现场SEO的文章,但实际上并没有任何可以比较这两种分类的不同排名信号的文章。我确实相信,搜索引擎会将页面和页面外排名信号结合在一起,从而彼此增强,从而使页面的权重更高。

  16. Google重视语义内容。证明是,如果您的内容出现在与主题相关的各种语义内容中,而不仅仅是关键词的重复,那么您的内容不仅对访问者而且对搜索引擎都更加相关。

  17. 编写引人入胜,有趣且内容丰富的内容是很有道理的,可以说服访问者返回,也可以查看网站上的其他页面。在页面上提供丰富的内容可以为搜索引擎提供更多索引,并且如果搜索引擎使用的是本专利中所述的查询扩展形式,则可以帮助您的页面在与之相关的更广泛的关键字中排名较高。

  18. 关于这是否到位有什么说法吗?另外,我不知道Google是否会使用随机算法来做到这一点。

  19. 安东尼,你好

    看来Google正在使用此专利申请中描述的查询扩展/同义词方法。看我的帖子 Google同义词更新。看起来Google正在使用N-gram方法来识别他们在网络上找到的文档的语言并在最新版本的Google Chrome浏览器中提供翻译服务,尽管该专利涉及用于查询的统计机器翻译方法扩展和同义词don’在细节方面提供了很多。

评论被关闭。