您如何处理AOL用户查询数据库?

分享是关怀!

有时,您会发现在知识产权方面,一个想法似乎会在搜索引擎领域重复出现。

想象一下,您可以接受大量查询并将其分类,从而可以大致了解搜索者’的意图是。还请考虑一下您可以将大型数据库分成几个较小的专用数据库的想法,这样,当有人进行搜索时,只需要查看这些数据库中的某些数据库,即可根据查询的分类来提供结果,而从一个数据库合并。

这种方法会导致更高效,更相关的搜索结果,并且处理成本更低吗?

基于分类的结果路由可以通过查看提交给搜索引擎的查询和查询短语中注意到的模式来调用其他数据库或搜索过程。

AOL的一项新专利申请着眼于这些想法以及其他涉及查询分类的想法。

它探讨了如何对查询进行分类,以及该分类如何有效地帮助返回结果,以及探讨查询的主题分类。甚至广告也可以基于分类而不是使用关键字。

网络查询分类
由Abdur R. Chowdhury,Steven Michael Beitzel,David Dolan Lewis,Aleksander Kolcz发明
美国专利申请20060190439
分配给AOL
2006年8月24日发布
申请日期:2006年1月27日

抽象

可以将查询短语自动分类到一个或多个感兴趣的主题(例如,类别),以帮助将查询短语路由到一个或多个适当的后端数据库。选择性偏好查询分类技术可以用于基于查询短语和查询短语的模式之间的比较来对查询短语进行分类。另外,或者可以使用查询分类技术的组合来对查询短语进行分类。查询短语的主题分类还可以用于协助搜索系统向输入查询短语的用户传递辅助信息。例如,可以基于分类而非查询关键字来定制广告。

与Google新专利相似吗?

从许多方面来看,这让我想起了我周二撰写的刚刚授予Google的专利: Google根据编辑意见查看查询主题和排名。它进一步详细介绍了对查询进行分类的一些好处,但是讨论了分类方法,这些方法与Google专利文件中的方法非常相似。

它还讨论了一些手动确定哪些站点是对某些查询的响应的好站点,以及基于这些手动确定的机器学习方法,该方法类似于“favored” and “non-favored”Google文档中提到的网站。正如该AOL文档所指出的那样,查询短语可以由人工编辑器手动分类为特定类别,也可以通过编程方式将其与先前手动分类的查询短语列表进行比较。

自动化分类也可以通过已经从分类查​​询短语的训练集中学习的系统进行。

那里’在AOL文档中,这里没有讨论根据这些编辑决定对结果进行重新排名。但是看来,这种方法会影响实际排名,这意味着不需要“reranking.”

这两个文档之间存在差异,并且,如果您想更深入地研究此专利申请,您可能会发现将Google和AOL的专利申请并排放置并比较相似点和不同点很有趣。

查询分类过程摘要

  1. 提交了搜索查询,
  2. 查询短语分为几个组成部分,
  3. 从存储的分类信息中访问与一个或多个类别关联的模式,该信息包括查询短语的模式,
  4. 确定所提交的查询短语的一部分是否至少对应于所访问模式的子部分,
  5. 如果存在这种对应关系,则与模式相关联的类别也与查询短语或其组成部分相关联;并且;
  6. 识别至少一个用于基于关联的类别满足查询短语的搜索资源。

此过程的实现可能涉及一些功能:

  1. 可以启用查询短语到至少一个识别的搜索资源的路由,
  2. 关联类别可以包括将类别与查询短语关联,
  3. 关联类别可以包括将类别与组成部分关联;以及
  4. 一个以上的类别可以与查询短语或组成部分相关联。

基于提交的查询短语,可以从至少一个标识的搜索资源(可能在多个数据库中)接收搜索结果–在这里可以想到这样的事情,例如涵盖不同主题的数据库,本地搜索,购物搜索,广告数据库等),并且可以向用户呈现至少一个搜索结果。

可以将与搜索查询相关联的一个或多个类别与与多个搜索资源相关联的属性进行比较,从而将查询短语路由到至少一个搜索资源可以涉及修改查询短语并将查询短语的修改版本路由到一个。基于比较结果的多个搜索资源的子集。

修改查询短语可能意味着:

  • 在查询词组中添加单词,
  • 从查询短语中消除单词,和/或;
  • 重新排列查询词组中的单词。

该专利还讨论了“选择偏好查询分类技术”训练系统对查询进行分类时.f它涉及:

  1. 接收包含组成部分的训练查询短语,
  2. 解析成至少一部分,
  3. 接收更多与训练查询短语共享组成部分的查询短语,
  4. 识别具有至少一个共同组成部分的训练查询短语的模式,
  5. 确定与至少一个公共组成部分相关的类别,
  6. 将训练查询短语的模式与与至少一个公共组成部分相关联的类别相关联,以及;
  7. 使用模式对查询短语进行分类。

如果您回头看我写的关于 Google专利,它描述了提出用于确定查询分类的特定规则的过程。使用的一个示例是:

对于查询主题“提供免费软件下载的站点”,该规则可能是查询包含单词的要求“free” and “download”

这听起来与上述AOL过程有点类似。

有关查询分类技术的更多信息

查询短语可以手动分类,也可以通过有监督的机器学习查询分类过程分类。

可以比较查询分类技术的结果,并且如果该比较指示由查询分类技术产生的结果不一致,则可以使用分类仲裁器对查询短语进行分类。

可以使用两种以上的查询分类技术来标识查询短语的类别:

(1)可以使用一种以上的方法对查询短语进行分类,然后使分类仲裁器基于由所使用的大多数分类技术确定的分类来进行判定。

(2)与上述相同,不同之处在于,分类既要基于大多数技术,又要基于查询分类技术的整体分类指标。

(3)手动查询分类技术可以用作选择偏好和有监督的机器学习查询分类技术的种子。

结论

It’看到Google的专利和AOL的这一专利申请在同一周内问世,并具有如此多的相似性,这有点奇怪。

那里’在网络上的许多地方,关于 有争议的AOL用户查询数据库的发布。可悲的是,那个数据本来是’旨在个人识别或伤害任何人,或侵犯其隐私的信息,但旨在使人们能够进行涉及本专利申请中所述过程的研究。它’遗憾的是,该数据可用于识别人员,并且遗憾的是人们在该版本中失去了工作,AOL’的努力蒙上了一层薄雾,人们暴露了自己的私密搜索。

分享是关怀!

有1个想法“您如何处理AOL用户查询数据库?”

评论被关闭。