挖掘信息查询查询

分享是关怀!

搜索引擎以及不断进行改进和更新的人们在寻找使这些搜索引擎的结果更相关的方法时变得越来越聪明。

他们更关注的领域之一是搜索引擎日志文件,观察搜索者如何与搜索引擎交互。我想对研究人员如何看待搜索查询进行更多研究,并收集一些涉及该类型研究的页面的引文。

这绝不是搜索引擎/用户行为文件的规范列表,但是它’s a start…

有关删除预测的更多信息

周日,我写了一篇有关Yahoo的专利申请的文章,着眼于搜索者如何与Google的搜索引擎进行交互的一个方面。 用户行为:删除预测

让·玛丽·雷·雷,来自 追随者,在该主题的线程中留下了关于该文档的一些评论 Google自动连结专利 ,他在2003年发现了SIGIR的海报, 查询词删除预测。谢谢你,让-玛丽。

该论文的作者也是Yahoo专利申请中提到的发明人, 罗斯玛丽·琼斯(Rosemary Jones))和Daniel C. Fain,他们在用语言解释他们的一些研究方面做得很出色,这种语言比专利申请中的语言更清晰,更容易理解。这里’是该文档的摘要:

Web搜索查询日志包含用户搜索修改的痕迹。用户采用的一种策略是删除术语,以期获得更大的覆盖范围。当任意搜索与手工构建的小型集合(例如手工构建的层次结构)或与关键字匹配的高质量页面的集合共同匹配时,对术语删除建模并使其自动化非常有用。没有匹配项的查询可以删除单词,直到获得匹配项为止。我们提供的算法在预测应从重新格式化的查询中删除哪个单词方面,要比基线性能更好,从而可以在小型高质量集合的网络搜索中提高查询覆盖率。

学习搜索查询

I’我已经按年订购了这些,但是正如我上面提到的,我还没有’试图创建有关研究查询的权威论文清单。不过,似乎确实添加了一些东西可以按时间顺序列出它们。

1998

很大的AltaVista查询日志的分析(1998)
Craig Silverstein,Monika Henzinger,Hannes Marais和Michael Moricz

任何人都可以在基于Web的搜索引擎上进行用户查询的大规模研究之一。他们想要查看的某些类型的事物,例如每个查询的平均单词数,平均用户会话中包含许多搜索查询,等等。该文档很好地介绍了搜索引擎查询日志的外观,以及它们如何记录有关用户会话的信息。他们对某些术语之间的相关性的讨论也很有趣。这里’是文档摘要的摘录:

具体来说,我们显示网络用户键入简短的查询,大多数情况下仅查看前10个结果,而很少修改查询。这表明传统的信息检索技术可能无法很好地回答Web搜索请求。

相关分析表明,最相关的项目是短语的组成部分。该结果表明,即使用户未明确指定搜索词,搜索引擎也可以将搜索词视为词组的一部分。

2000

激发用户使用查询表述和相关性反馈
阿曼达·斯平克(Amanda Spink),伯纳德·J·詹森(Bernard J.Jansen)和H.

当您单击“similar pages”Google的链接,就告诉搜索引擎有关它们发送给您的结果的相关性。这项涉及Excite搜索引擎的研究的一部分着眼于使用类似的链接,“more like this” link. 这里’总结了他们的一些发现:

从包含51,473个查询的18,113个用户搜索会话的数据集中,总共检查了985个用户搜索会话。包括对191个用户会话(包括多个查询)的定性和定量分析,以检查用户查询重构的模式;其次,检查了包括相关性反馈在内的所有804个用户会话。结果显示,Excite用户有限地使用了查询重构和相关性反馈-只有五分之一的用户重构了查询。

2003

查询关联代理进行Web搜索
Falk Scholer,Hugh E. Williams和Andrew Turpin

Powerpoint幻灯片的HTML版本以相同的名称显示2003年文档的发现,该文档讨论了如何使用与在搜索引擎中找到的文档相关的查询来描述那些文档。查询关联和基于查询的摘要可以有效地描述文档内容。

2004

拼写校正是一种利用Web用户集体知识的迭代过程

从搜索引擎日志中提取的统计信息,用于将搜索查询转换为更可能的查询。他们在论文中指出:

据我们所知,本文是第一个成功尝试将存储在搜索查询日志中的集体知识用于拼写纠正任务的尝试。我们提出了一种技术来挖掘这种非常有用但非常嘈杂的资源,该资源实际上是利用人为错误来进行有效的查询拼写校正的一种方法。

2005

客气的用户:查询扩展的独立于文档的术语来源
黛安·凯利(Diane Kelly),维杰·迪帕克(Vijay Deepak Dollu)和辛Fu

在当前大多数搜索界面都设置为不鼓励较长的查询的前提下,探索交互式查询扩展。’提供足够的反馈机制来帮助搜索者优化搜索查询。

与其强迫用户与系统建议的术语或文档进行交互,我们不希望将用户作为查询扩展的术语源进行调查,而与系统中的任何信息无关。在查询严格由用户生成的情况下,我们还对检查查询长度与性能之间的关系感兴趣。

查询链:从隐式反馈中学习排名(2005)
Filip Radlinski和Thorsten Joachims

作者指出,他们认为大多数涉及搜索引擎的用户行为研究都遭受了打击,因为它是单独查看每个查询,而不是一起查看它们。查看这种“query chain”可以帮助搜索引擎返回更好的结果。与Yahoo删除预测不同’该文件的论文和专利均着重于搜索引擎中的自然结果以及诸如如何将某些搜索查询捆绑在一起,或者如何通过后续使用正确拼写的搜索来告知拼写的问题。这里’摘自摘要:

This paper presents a novel approach for using clickthrough data to learn ranked retrieval functions for web search results. We observe that users searching the web often perform a sequence, or chain, of queries with a similar information need. Using 查询链s, we generate new types of preference judgments from search engine logs, thus taking advantage of user intelligence in reformulating queries.

2006

生成查询替代
雅虎的Rosie Jones,Benjamin Rey和Omid Madani!研究与Wiley Greiner

来自我们的“删除预测”专利申请的Rosie Jones是此处的作者之一,本研究的重点是使用经过改进的查询与付费搜索配合使用,以找到与广告的良好匹配。实际上,我对此感到有些惊讶,因为这意味着搜索引擎可以从不符合条件的搜索查询中返回广告’t确实与搜索者选择的原始查询匹配,但会针对“substitute queries” that might be “close enough.”

这里’摘要的一部分:

我们介绍了查询替换的概念,即生成新查询以替换用户’的原始搜索查询。我们的技术使用的修改基于网络搜索者对其查询进行的典型替换。这样,新查询与原始查询紧密相关,包含与所有原始术语紧密相关的术语。这与通过伪相关反馈进行的查询扩展形成对比,后者成本高昂并可能导致查询漂移。这也与通过布尔或TFIDF检索进行的查询放宽形成对比,后者降低了查询的特异性。我们定义了评估查询替换的量表,并表明我们的方法在生成与原始查询相关的新查询方面表现良好。

历史重演:在Yahoo日志中重复查询
Yahoo Research的Rosie Jones和Michael Potts,Jaime Teevan(MIT)和Eytan Adar(华盛顿大学)

以114个网络浏览器的匿名用户为例,进行了3​​65天的观察,以了解他们使用搜索引擎重新查找以前可能发现的东西的能力。

这项研究涵盖了一年的时间,而不是一次会议,而是针对一个问题,即一项大型调查显示17%的网络用户被认为是网络上最大的问题之一–找到您以前能够找到的东西。这里’研究中的一个片段:

一个人发出的查询很好地指示了搜索者是否要单击以前查看过的结果。导致重复点击的查询中约有71%(3692/5216)涉及相同的查询字符串(例如,某人搜索“俄克拉荷马州城市集市”,点击了搜索结果,然后又搜索了相同的查询,点击相同的结果)。并非所有相同的查询都导致重复点击,但87%(3692/4256)的确引起了重复点击。使用相同查询字符串进行搜索而导致点击不同结果(1632或38%)的情况要少得多。

有趣的是,搜索结果的更改通常会使人们更难“re-find”他们以前找到的东西。

来自局部标记的会话日志的查询短语建议
美国在线的Abdur Chowdhury和Eric C. Jensen,Steven M. Beitzel和Ophir Frieder

本文不着眼于查询中的删除,而是着眼于用户添加到查询中的术语,以帮助其他用户找到他们想要的内容。他们面临的最初问题是:

对搜索会话日志的分析表明,用户通常会提出简短而模糊的查询,然后难以对其进行修改。

他们的解决方案是查看查询日志以找到解决方案:

我们发现,建议其他用户发现需要为给定查询添加的查询短语(从会话日志中挖掘)比单纯使用共现显着提高了建议的质量。但是,这加剧了在挖掘缺少功能的简短查询时面临的稀疏性问题。为了缓解这种情况,我们用较高级别的主题类别标记了查询短语以挖掘更通用的规则,发现这使我们能够对大约10%的查询提出建议,同时保持可接受的误报率。

正如他们所描述的那样,理想的方法是根据先前的查询添加来创建要使用的主题标签,并允许搜索者使用那些来完善他们的搜索查询。

分享是关怀!

3个想法“挖掘信息查询查询”

  1. 你好比尔,

    哇!什么帖子!假设为所有相关结果挖掘搜索引擎。一世’我需要花点时间彻底阅读它。当然可以’不是最终列表,但它’绝对是一件非常出色的工作。
    另外,非常感谢您链接到我的博客,它来自与您一样高质量的博客,它’s an honour, indeed.
    让·玛丽

评论被关闭。