使用带有实体标签的搜索查询消除歧义来理解意图

分享是关怀!

为什么要执行搜索查询消歧?

当某人在搜索引擎上执行搜索时,他们倾向于仅使用少数几个或更少的单词来尝试查找有关主题的信息。这给搜索引擎带来了挑战,即试图寻找网页和其他结果作为响应,并试图理解搜索背后的意图。

如果有人进入“纽约比萨桑尼维尔”(不带引号)放入Google或Yahoo或Bing的搜索框中,’尚不清楚他们是否在寻找:(1)纽约的某个街区或区域中的比萨,称为Sunnyvale,(2)纽约风格的比萨位于Sunnyvale的地方,(3)一个“New York Pizza,”在桑尼维尔,或(4)一些其他结果。

可以尝试尝试理解这样的查询意图的一种方法是将查询中的单词分解为实体类型,然后将标签应用于这些实体。随着“纽约比萨桑尼维尔”例如,可以通过以下几种方法完成:

[纽约披萨] /食物[晴天] /位置
[纽约披萨] /业务[晴天] /位置
[纽约] /位置[披萨] /食物[sunnyvale] /位置

在查询中使用这种尝试进行搜索查询消除歧义或查找单词和短语背后的含义或感觉的尝试可能有助于查找可能更好地匹配搜索者正在寻找的结果的结果。

当我执行搜索时“纽约比萨桑尼维尔”在Google中,排名第一的是乔凡尼(Giovanni)’位于加利福尼亚州森尼韦尔的纽约披萨店。在雅虎,我最出色的成绩是在加利福尼亚山景城的一个名为New York Pizza的地方。在必应(Bing)进行的搜索中,我得到了一个最高的搜索结果,显示了森尼韦尔(Sunnyvale)中提供纽约风格披萨的披萨位置目录。在这三个搜索引擎中,前十名中的大多数结果都与加利福尼亚的比萨有关,而不是纽约的比萨结果。

如果搜索引擎试图将查询分解为实体,并为其应用标签,则它必须尝试在消除歧义的最佳尝试中进行选择,以决定哪个可能最接近搜索者的意图。它可以根据在线词典或百科全书,网页和其他在线文档中找到的信息,通过为每种可能的解释创建置信度得分来潜在地识别实体。

分配给在查询中找到的不同实体的标签可以覆盖各种标签,例如:

  • 产品名称
  • 位置,
  • 人名,
  • 组织,
  • 媒体,
  • 活动,
  • 等等

可以从训练数据中创建这种查询解释系统,该训练数据可以从人类法官那里收集,以训练对查询的解释进行评分的模型。

上周发布的Yahoo专利申请探讨了如何将这种系统用于搜索查询消除歧义:

搜索查询消歧
发明人:Gilad Mishne,Raymond Stata和Fufu Peng
美国专利申请20100205198
2010年8月12日发布
提交日期:2009年2月6日

抽象

本文公开了查询消歧的系统和方法。使用训练数据生成至少一个模型,该模型可用于对查询所标识的可能解释进行评分或排名,该模型可用于从多种可能的解释中选择一种解释。

所选解释可以用于处理Web搜索请求,例如生成与所选查询解释相关的搜索结果,基于与所选查询解释的相关性对搜索结果中的项目进行排名或排序,和/或标识用于基于所选查询解释显示搜索结果的演示文稿。

搜索查询消歧结论

专利申请书详细介绍了如何使用这样的系统,但是从这些查询词中识别实体并标记实体的基本概念是该方法的核心。

对于某些查询,可以一定的置信度来识别一个以上的解释,并且搜索结果可能包含涵盖这些解释的页面。

除了帮助确定要返回搜索结果的网页外,查询解释有时还会触发专门的结果,例如本地搜索地图结果或某些类型的广告。

专利申请还分支了探索在查询中发现数字术语时如何解释的问题,并提供了大量示例。例如,“Godfather 3”可能被解释为等同于“Godfather III,” but “firefox 3”可能不被视为等同于“firefox III.”

分享是关怀!

关于11条想法“使用带有实体标签的搜索查询消除歧义来理解意图”

  1. 很高兴知道搜索引擎一直在尽力而为,以显示出对搜索者不同查询的最佳答案。我只是想知道,如果’反过来,我们’会尝试教育人们正确搜索吗?好吧,我想如果有数以百万计的人正在网上搜索,那就很难了。

  2. 哇好文章。在搜索引擎上搜索时找到正确的信息肯定会很痛苦。使用这些标签是对我正在寻找的内容进行分类以便获得更多相关响应的好方法,一个好主意…但是我想这也引出了一个问题,即搜索引擎是否开始这样做。实际上有多少人会使用它们,因为我们天生都是懒惰的,即使没有引号,他们也会继续输入纽约披萨。

  3. 我敢打赌,比尔将继续前进!搜索引擎现在可能正在使用此数据(尽管用于测试小数据样本)。他们可能会暂时放弃使用它。而且由于“entity data”如果由用户维护,黑帽SEO很难发送垃圾邮件或操纵数据ðŸ™,

  4. 嗨安德鲁,

    I’我不确定是否有什么特别之处“best way to search.”最大的绊脚石可能是人们在搜索有关自己不熟悉的主题的信息时’我对阿雷恩了解甚多’非常确定在查询中使用哪些词,但也有其他词。

    It’也有可能某些人可能会从搜索引擎中看到过多的任务,而将搜索背后的意图视为否定的。

  5. 大卫,您好

    谢谢。那里’无需我们使用示例中显示的标签– that’是搜索引擎本身正在尝试自行完成的操作。 Google不久前确实提出了一项专利,该专利拥有搜索者 为查询添加标签 他们可能会使用,但是这种方法使搜索引擎试图自行决定适当的标签。

  6. Pingback:模糊的搜索引擎查询,可编程的搜索引擎和专利:: Prodigal网站管理员

评论被关闭。