重写搜索词的分类

Sharing is 汽车ing!

当我’我正在寻找有关某个主题的信息,我’无论我发现关于该主题的信息有多好,都很少会一口气停下来。

I’将查看我从搜索中获得的一些结果,并可能根据在这些搜索结果中看到的内容来更改搜索中使用的词。有时候我’将忽略这些结果并尝试其他条件。我可能会添加一两个字以更好地集中搜索范围,或者删除一些字以更好地定位我的目标’我在寻找。我可能会使用 高级搜索运算符,例如字词前的减号,以尝试滤除某些’t relevant to what I’m trying to find.

华盛顿大学的一些研究人员发表了一篇论文,该论文将在2009年11月的第18届ACM信息和知识管理会议(CIKM 2009)上发表,该论文仔细研究了人们如何在网上搜索以及搜索者可能会在尝试查找有关主题的信息时重塑和重写他们使用的查询词。

如果你’re a searcher, knowing some of these strategies might help you find information on topics that you might be having trouble finding. 如果你’一个网站所有者,了解有关人们如何搜索的知识可能会帮助您考虑人们如何通过搜索引擎找到您的页面。

纸是 分析和评估Web搜索日志中的查询重新编制策略

The authors, Jeff Huang 和 Efthimis N. Efthimiadis, looked closely at query logs from AOL released a couple of years ago, to capture information about search sessions from individual searchers, to come up with classifications on how people might change the words that they use when going from one search to another at a search engine. Those query logs contained records of 36,389,567 queries 和 the classification method that the researchers used identified 3,411,706 of those as 重新制定 of previous queries in the log files.

这些分类以列表形式显示“reformulations”或重写查询字词(尽管如此)’尚不完整的清单。例如,作者在论文中告诉我们,他们没有’尝试区分查询词,其中搜索者可能在搜索中添加或包括了地理信息。我也不要’看不到列表中包含搜索者尝试通过包含时间信息来完善查询的尝试– such as adding a “2005” to a search for “world series.”本文也没有’•讨论如何使用高级搜索运算符(例如减号)来过滤掉某些搜索结果。

该文件告诉我们,人们重新编写查询的某些方式是在搜索者没有’在搜索结果中找不到很多对他们有用的信息,并且在看起来他们在搜索过程中确实找到了有用的信息之后,还使用了其他重新定义查询词的方法。

查询格式

Here are the classifications that the authors of the paper came up with for 重新制定 of 搜索查询 that they saw happen commonly in the query log data that they studied:

单词重排
您输入查询词的顺序对搜索有影响吗?搜索[西雅图比萨饼宫殿]的人们可能会将其查询更改为[比萨比萨饼宫殿],以查找他们在第一次搜索中可能看不到的结果。

更改空白和标点
Might changing how whitespace 和 punctuation in your search show you different results? 如果你 search for [ice-cream new york] or [icecream new york] or [ice 奶油 new york], will you see different search results?

删除单词
如果你 type in a three or four-word long query, 和 after looking at the results you see perform the search again after removing one or two words, you might see a broader range of results. For example, if I search for [cincinnati bengals ohio], I might miss out on a good number of results that I would see if I just searched for [cincinnati bengals].

添加单词
有时搜索查询的范围可能太广,添加一个或多个单词以更好地集中搜索可能会有所帮助。搜索[弗吉尼亚抵押贷款]可能不是’它集中在[弗吉尼亚抵押贷款利率]上,如果我有兴趣探索抵押贷款利率,那将给我带来太多的结果。

URL剥离
Sometimes people type or copy the URL, or web address, of a page into a search box rather than their browser address bar. They may then remove things such as “.com”, “www.”, 和 “http” from their original query. 如果你 do this on Google these days, it will usually deliver you to the page for the URL that you’ve type in rather than showing you search results. 如果你 want to search for the URL, you need to put quotation marks around it.

抽干
词干意味着将单词分解为词根,例如,搜索“在桥上钓鱼”可能会改写为“在桥上钓鱼”或“在桥上钓鱼”

使用首字母缩写词
搜寻[美国国家航空航天局]的人可能会决定在下一次搜索中使用该组织(NASA)的缩写。

扩展缩略语
搜寻[NASA]的人可能会决定在其后续搜寻中使用[National Aeronautics 和 Space Administration]组织的扩展首字母缩写。

使用子串
在搜索的前部或后部可能被删除的内容作为前缀或后缀。例如,查询[我的计算机上是否有间谍软件]可能被简化为较小的字符串,例如[是否有间谍软件]。

使用超弦
将某些内容作为前缀或后缀添加到搜索短语的前面或后面的地方,例如将对[nevada Police rec]的查询扩展到[nevada Police records 2008]

使用或扩展缩写
查询中的单词可能会加长或缩短,例如将[shorted dict]的查询更改为[short dictionary]。

代词
查询中的单词可能会替换为语义相关的单词。这些关系可能是同义词,下位词,上位词,全称或全称。同义词是具有相同含义的单词,例如“car” 和 “automobile.”下位词是作为原始单词(或查询词)的特定实例的单词,例如单词“scarlet” instead of “red.” A hypernym is where you have the more narrow term, such as 猩红, 和 replace it with the broader related term, such as “red.”易名是一个单词,它命名较大整体的一部分,例如“finger” for “hand.”全称是指较大的整体而不是较小的部分的单词,例如“hand” for “finger.”

纠正拼写错误
尽管这看起来很明显,但研究人员仅在拼写错误的编辑量很小时才计算拼写错误。

In addition to the classifications above, the researchers also noted that sometimes searchers will change more than just one of the things listed above at a time, such as adding new words, changing the order of words, 和 others. Some 重新制定 of queries can be too difficult for a computer algorithm to capture as well 和 may require more context or knowledge of popular culture. They give the example of a query reformulation from [how to calculate nutritional values] to [weight watchers calculator].

结论

在这些分类中看到的查询重排模式可以帮助搜索者,网站所有者,甚至搜索引擎找到或向搜索者提供更好的结果。

如果你 find yourself searching for information about FEMA, you might want to try a followup search for [Federal Emergency Management Agency] to see if you can find some results you otherwise might have missed. Adding words to a query can help better focus a search. Removing words from a query can make an original search that might be too narrow broader 和 possibly more useful.

如果你’重新成为网站所有者,尝试使用您认为访问者希望看到或可能用来搜索和找到您的网站的单词,要理解搜索者可以按照上述方式重写其查询词可能会给您一些想法当你’重新编写或编辑页面内容。例如,如果我’在写有关NASA的文章时,我’我将确保我提供代理商的全名和首字母缩写。

我上面提到过,上面的分类没有’包括添加地理术语或可能会增加查询时间的术语。我喜欢在某些单词前面使用高级搜索运算符减号,以过滤掉一些搜索结果,这种查询重新构造也不是’t included. (I’d希望看到一个主要搜索引擎进行的一项研究,该研究涉及人们在搜索中使用高级搜索运算符的频率,例如减号或短语周围的引号。)

您在搜索时使用了哪些策略,而这些策略可能未包含在上面的分类中?

Sharing is 汽车ing!

39个想法“重写搜索词的分类”

  1. I’一家大型SEOer,我们的部门会收集所有可能的搜索字词,词组,关键字等信息。在收集信息时,我们会使用上述许多策略以及在搜索引擎中搜索不同类别–例如Google新闻或Yahoo!体育。这些策略从更集中的类别中收集信息。有时,我们会退后一步,从更具体的词到更具体的词进行搜索,就像您用替代词所说的那样。一般而言,此职位非常适合重新制定策略和SEO。

  2. 嗨,凯斯

    欢迎来到海边的SEO,并感谢您分享有关您和您的部门如何看待关键字的信息。我喜欢探索从一般到非常具体以及介于两者之间的一系列关键字。

    我真的很喜欢查看搜索结果中关键字词和短语的显示内容,以及这些搜索结果中还会显示的内容,包括查询建议,页面标题中的其他短语以及搜索结果中的摘要,新闻中显示了什么样的新鲜信息。搜索,无论图像,博客和书籍是否来自混合/通用搜索等等。

    将其带到下一步,并将此类信息与显示的变化信息(例如术语的单/复数和词干版本,复合词等)进行比较,有时会让人大开眼界。我喜欢本文提供的框架或分类方案,其中提供了可能重写查询的方式。它’有趣的是,搜索引擎也可能尝试调整其中的一些内容,例如拼写更正,缩写等等。

  3. 本文使用了AOL查询日志。它们似乎在AOL页面上不再可用(有人知道为什么吗?),但是我在 http://www.gregsadetsky.com/aol-data/

    Anyways, has anyone tried using these logs to detect 重新制定 for SEO? Basically I think of them as alternative search terms. The paper links to a python script for classifying 重新制定 (apparently with high precision, whatever that means).

  4. 嗨,泰勒,

    关于AOL查询日志信息的宣传很多,但不幸的是,’肯定。许多人担心它包含太多信息,并且可能有可能从日志中找到有关个人的个人身份信息。

    我的研究’上面所述的正是您要问的问题– trying to find 重新制定 of queries. In this case, the researchers don’t discuss specific 重新制定 for specific terms, but rather attempted to come up with a classification of how people might try to reformulate the queries that they use, 和 what the context of those 重新制定 might be.

    I’曾经看到人们写过有关使用AOL数据来了解有关特定关键字的更多信息的信息,所以我知道其中一些情况还在继续。将这些数据用于其他搜索引擎是有局限性的,因为每个搜索引擎都会应用自己的过滤器,流程和算法,并对流程进行重新排名以显示其显示的结果。

    精度通常定义为与搜索相关的搜索可能返回的文档数除以搜索返回的结果总数。例如,我搜索[冰淇淋],寻找有关甜点的页面。我从搜索中得到的结果包括这些页面,但其中也可能包含以下单词:“ice” 和 “cream”在它们上,例如可能包含句子的页面,“I slipped on the 冰 when I went to the store to buy 奶油.” So the precision of that particular search might be looked at as the number of pages that are actually about 冰 奶油 compared to all of the pages that contain the words “ice” 和 “cream” on them.

  5. 谢谢,K。

    您如何获得未发表的研究成果?

    我通常不’除非有人给我寄东西,通常是出于某种禁运或使用限制。但是,许多准备在CIKM之类的地方发表的论文都在会议之前发表在其他地方,’可以使用Google学术搜索之类的资源来查找它们,或者检查会议是否已发布了已接受论文的列表,然后搜索这些论文或这些论文的作者。

  6. 嗨,维克拉姆,

    有时候有’在线上有任何好的信息’已被搜索引擎在某些主题上编入索引。它’信息确实存在,但没有可能’被索引,或者只是没有’关于主题的任何信息。那里’还有大量的页面和数据库,需要付费订阅和会员才能访问避风港’搜索引擎对这些期刊进行了索引,从科学期刊到报纸档案馆等等。

    在可能的情况下,一种有时可能有用的策略’找不到您正在寻找的主题,尤其是您没有找到的主题’太多了解的是查找资源页面,例如Wikipedia条目或可向下钻取其类别的目录,以查找其他术语和相关主题,这些术语和相关主题可能会揭示可用于搜索的其他术语。

  7. 这个网站永远是我进行出色seo研究的第一站。这是可用于任何关键字发现/研究计划的重要信息。

  8. 我真的认为Google以及其他一些引擎可能对此进行了大量的大规模测试。这确实可以解释为什么存在相关的搜索词。进行Google搜索时,这可以在结果底部看到。 Google借助此类信息来汇编最佳和最相关的信息。

  9. 搜索时,我发现自己正在查看弹出的广告文案,因此我可以使用找到的短语来获得其他结果。主要是,我借助Semager之类的引擎继续进行标签冲浪样式搜索。有时,语义搜索引擎会产生出乎意料的结果(例如特定公司’的名字)。但是,我通常会选择一个特定的项目,例如“spark arrestor”导致烟囱,壁炉,燃烧器,通风口,热水器,火炉等。

  10. 如果返回的结果不正确,我只会更改搜索词组’不会出现我’m在首页结果中满意。

    作为网站所有者,我只是使用adword关键字工具来了解用于搜索字词的变体。

  11. 巨大的职位。这类文章使我比大多数人更感兴趣。我喜欢可以帮助我们通过搜索来了解人类互动的信息。这是优质网站管理员和SEO的关键’rs.

  12. 我几乎每天都在搜索,当您一遍又一遍地搜索药物修复存储词并尝试查找新信息时,它变得非常乏味。

  13. 尼斯邮政条例草案。这也向我解释了我们可以在搜索引擎中进行搜索的不同方式。

  14. 很棒的输入!在优化网站(以吸引尽可能多的受众),然后选择关键字以针对自然搜索目标时,考虑这些想法将极大地帮助您&PPC广告系列。同样,显然,这对于搜索者尽快找到他们想要的东西很有价值。

  15. 嗨,亚当,

    主要的搜索引擎在这一领域做了很多实验和测试。一世’最近根据专利和白皮书撰写了许多有关搜索建议和搜索优化的文章,其中许多可以在我的分类中找到 搜索查询。其中一些查询可能非常有用,特别是如果您不这样做’不太了解您正在搜索的主题。尽管有时候,当一个查询词可能具有多种不同的含义时,我’我不确定所提供的建议是否足够多样化。

  16. 嗨弗兰克,

    非常有趣的方法,查看广告中的单词和短语。一世’我们已经在一些专利和白皮书中看到了一些有关搜索引擎的参考文献,这些搜索引擎正在查看他们选择作为其广告投放目标网页的广告所使用的术语,以试图了解所用单词之间的关系。

    我也喜欢使用不同的搜索引擎的想法,这可能会提供一些不同且独特的结果。避风港’尚未尝试过Semager,但这听起来像我应该的。谢谢。

  17. 嗨阿尔弗雷德,

    仅使用Google 分析工具(分析)可能会受到限制–它可以告诉您有关人们用来找到您的网站的词语的信息,但不能告诉您有关您所拥有的词语的信息’在您的网站上使用,也许您应该拥有。

  18. 嗨,Crystite,

    如果可以的话,我想看看不止一种信息来源,无论如何“trusted”第一个可能是。有时,对多个词组进行搜索可能会从看起来相同的来源中产生关于同一主题的一些矛盾信息“trusted.”

    adwords关键字工具有时可能会有所帮助,我认为’很好用。我发现类似我帖子中列出的方法有时可以为我提供更多的可能性。

  19. 嗨乔尔,

    谢谢。我对此研究非常喜欢的另一件事是,它对搜索者,网站所有者和搜索引擎很有帮助。一世’d喜欢看到更多的论文为像这样的广大读者提供有用的信息。

  20. 嗨人查找器,

    这是同义词和相关术语的很好来源,可以真正帮助搜索者。我想知道Google是否会考虑提供与搜索者类似的内容作为“查询建议工具,”可以从搜索结果页面直接访问它们在搜索框中键入的查询。

  21. @比尔,

    对于Google来说,这将是一个很好的搜索选项,可以为其用户提供并易于实施。

    在搜索引擎方面请注意–你听说过 http://www.80legs.com/ –该网站是网络爬虫“for hire”?我今天在Mashable.com上看到了它。

    您可以输入所需的域并选择选项,价格为$ 2.00 /百万页面和$ .03 / CPU小时80Legs将为您抓取网站,然后您可以构建自己的自定义搜索引擎– albeit with a fair amount of your own Java programming to 手le the queries 和 the returned data.

    I just wonder how this really differs from Google Custom Search ( which is free ), where you enter your own domains to search 和 then easily copy-and-paste the code into your own site. I suppose having your own crawler would give you more flexibility on 手ling the results 和 the relevancy assigned to those results.

  22. 嗨人查找器,

    我最近也遇到了80条腿,这是上周五在alt搜索引擎上的一篇帖子

    与使用Google自定义搜索相比,使用80legs似乎可以给您更多的控制权,使您可以更实际地控制要在索引中显示的内容。 Google自定义搜索使您可以指定要抓取的网站,并且设置起来非常容易。 80legs可让您指定开始的种子站点,看起来它可以超越那些种子站点’从那些种子位置指定。是的,从FAQ来看,它确实涉及更多的工作,但是正如您所提到的,它似乎还提供了更多的灵活性。

  23. 考虑到我是如何在搜索结果中因写作上的严重错误而受到惩罚的,这是很高兴知道的。我认为这是由于您所说的那些错误从未得到纠正之后,我的一个网站获得了很高的排名。很棒的信息,感谢您的分享!

  24. 你好比尔,谢谢你的文章。我正在写关于人的学校论文’的搜索行为。我正在寻找有关作者的类似论文’s homepages: http://jeffhuang.com/http://faculty.washington.edu/efthimis/pubs/pubs.chrono.html

    但不幸的是,我无法访问有关黄博士的论文’的页面,因为没有链接到它们。比尔,你有这些文件的副本吗?我找到了一篇有关Efthimiadis博士放弃查询的论文’s pagee: http://faculty.washington.edu/efthimis/pubs/Pubs/ecir10-stamou-efthimiadis.user.inactivity.results.pdf

  25. 嗨Deepti,

    谢谢。一世’我不确定这些纸质副本的格式在一个站点与另一个站点之间是否有任何不同,但是有时为纸张另辟location径可能会很不错–有时它们消失了。

    Jeff Huang引用了许多新论文’s page, but 我不’还没有任何副本。他的确在页面上列出了他的电子邮件地址,您可能想尝试与他联系并进行自我介绍,并让他知道您可能有兴趣将其用于学校论文。我想在那里’这是他愿意分享的好机会,您也许也可以提出有关论文的问题。

  26. 我喜欢这篇文章如何分解所有优化类型。我认为一切都归结为观察网络冲浪者自我教育的方式或“gets smarter” about what they’重新寻找。在编写新内容时,明智的做法是对所写主题进行一些可能的改进。此外,通过查看内部网站搜索字词,关键字来源的访问量(在Web分析中)并根据转化率对其进行衡量,您可以更准确地了解客户意图。

  27. 嗨雷克斯,

    这篇论文在描述和说明这些优化类型方面做得非常出色,我个人从思考人们如何搜索以查找我试图提供的信息方面学到了很多。

    我们不’当某人优化查询时,总是会知道搜索背后的意图,但是对他们可能会采用的许多方法有所了解,这使得人们更容易进行有根据的猜测,并为可能的情况预先计划。

评论被关闭。