从用户数据中查询分类

分享是关怀!

对于基于查询本身的官方网投引擎而言,查询分类可能具有挑战性。

例如,如何根据查询进行查询分类“lincoln?”

阿伯林肯

总统亚伯拉罕·林肯

内布拉斯加州林肯

地点,内布拉斯加州林肯

汤姆-林肯汽车

林肯品牌的汽车(与好莱坞老明星汤姆·米克斯(Tom Mix)一起显示)。

使用用户行为数据查询分类

官方网投引擎通常通过访问许多页面来存储有关Web页面的信息,在官方网投引擎中,官方网投引擎使用Web搜寻器从这些页面的超链接中检索页面中的信息。

Web搜寻器将抓取那些页面的内容,然后对其进行分析以对页面建立索引,查看页面标题中的单词,页面标题,页面内容,替代文本和标题以及图像中的文件名以及其他内容。它将信息存储在索引数据库中,以与在官方网投引擎上执行的查询一起使用。

执行查询时,该索引用于查找与查询最匹配的网页列表,并且返回的每个页面的结果都显示在官方网投结果页面上,页面标题链接到该页面,该片段为页面内容的简短描述,以及页面的URL(有时显示页面)位于页面内容的层次结构中。

这些页面是根据显示的人气,相关性和权威性最高的页面进行排名的。

这是查询的回答结果,而不是问题的回答结果。官方网投引擎尝试识别可能最有助于满足官方网投者的情况或信息需求的页面,而不是为特定问题提供基于事实的答案。

查询分类

那里 are some reasons to try to classify a query.

其中之一是,如果查询可能具有多种含义,仅返回与其中一种最相关,或最具权威性或最受欢迎的页面,可能对官方网投者而言并不令人满意。如果有人官方网投Java,希望找到更多关于编程语言的信息,而不是去喝酒或去乡下,那不是’如果饮料或国家/地区或两者都出现在编程结果之前,则这是一个很好的官方网投引擎结果。官方网投引擎如何提高官方网投结果的质量?

一种方法是,注意用户对官方网投做出反应时似乎显示的内容。

确定查询分类首先要确定与查询关联的许多官方网投实体。然后,它继续收集有关官方网投者对不同官方网投实体的满意程度的数据。

因此,我们用于[Lincoln]官方网投的官方网投实体是Abraham Lincoln,Lincoln Nebraska和Lincoln汽车。对于官方网投[Lincoln],可能还有其他结果是不错的结果,但是它们需要满足某种与查询相关联的阈值。它们还需要在内部保持一致。因此,如果这些年来有20家不同的制造公司生产林肯汽车,那么那里’人们在官方网投[Lincoln]时表示林肯汽车的可能性较小。

这种执行查询分类的方法可能意味着,如果大多数官方网投[Lincoln]的人都选择了与Abraham Lincoln相关的页面,并且倾向于在Abraham Lincoln页面上停留的时间比其他页面更长,则Google倾向于在顶部显示有关Abraham Lincoln的页面。人们对[Lincoln]进行官方网投时的官方网投结果数量。 谷歌必须确定在有关总统,城市和林肯汽车品牌的页面的最佳结果中,哪个是最佳。 让您的用户决定先显示哪个可能是一个好主意。

该专利是:

传播查询分类
Henele I. Adams和Hyung-Jin Kim发明的
Assigned to 谷歌
美国专利8,838,587
2014年9月16日授予
提交日期:2010年4月19日

抽象

通常,所描述的一个方面可以体现在一种用于确定查询的分类的方法中。该方法可以包括:基于与多个官方网投实体和第一查询中的每一个相关联的数据,接收确定是否将分类分配给第一查询的请求,识别与第一查询相关联的多个官方网投实体,基于所标识的官方网投实体的分类,确定是否将分类分配给第一查询。

使用‘结果统计质量’

作为网站所有者,Google员工希望对自己的状况有所了解,并在可能的情况下进行改进。最好的措施之一可能是,如果他们正在帮助人们找到他们想要的东西。有几种方法可以用来衡量官方网投者对他们看到的官方网投结果的满意程度。根据该专利,它们可以包括以下几种:

长点击和短点击

文档结果统计的质量可以从与文档相关联的用户行为数据中得出,例如“click data.”

某人观看了多长时间,或者“dwell”从查询的文档结果列表中选择查询结果文档后,将其添加到查询中?

停留在称为“ a”的文档上的时间更长“long click”, can indicate that a user found the document to be relevant for their query. See the section on 长按s in: Does 谷歌 Use Reachability Scores in Ranking 资源资源?

短暂查看文档,“short click”,可能被解释为与文档没有太大关联的文档。

追踪眼球运动

用户行为数据的另一种类型是基于跟踪用户在查看官方网投结果时的眼睛运动。您可以看到哪些结果看起来最有趣,哪些人花费的时间最多。

购买决策数据

用户行为数据的另一个示例是购买决策数据。此类用户行为数据可以基于:

  • 消费者搜寻的产品
  • 消费者看过的产品
  • 有关查看消费者购买的产品的详细信息

查询记录信息

谷歌’的专利介绍了我们在知识网中看到的该专利中数据记录的种类,这种形式可以以多种形式跟踪和使用数据:

每个记录(以下称为元组:<文件,查询,数据 >)包括用户提交的查询,指示用户响应于查询而选择的文档的文档参考以及针对响应查询选择了文档参考的所有用户或所有用户的子集的点击数据的汇总。</document>

请记住,Google正在建立有关人们可能官方网投的实体以及官方网投者如何对待它们的知识图或知识库。此信息可用于在执行可能以某种方式相关的另一个查询时,根据概率,帮助官方网投引擎预测官方网投者可能最感兴趣的其他页面。

这种基于记录的方法的扩展

该专利还告诉我们,可以对这种基于元组的用户行为数据方法进行扩展,例如跟踪其他类型的数据,例如:

1.特定国家或特定语言的标识符

与查询分类关联的地理和语言信息可用于构建未来查询的概率模型。这些将包括显示查询来自哪个国家的特定于国家的元组,以及特定于语言的元组将告诉用户查询的语言。

2.低,中或高有利的用户行为数据

How frequently is a page with a certain query classification selected, and how long do people 住 there?

3.文件分类数据

每个文档可以具有一个以上关联的分类器,或者可以具有有关与其他站点的关联的信息,或者元数据可以自我指示略有不同的分类。销售溜冰鞋的网站可以归类为商业商店,也可以归类为与体育相关的网站

4.与查询关联的最大关联用户行为数据

虽然此专利中描述的过程试图理解官方网投者可能如何不同地对待不同的站点,但是了解您拥有多少实际信息或涉及多少用户交互是有帮助的

拿走

该专利显示了查询分类的有用性,特别是因为人们倾向于在官方网投中仅使用几个单词,而这些单词可能会被广泛的站点所回答。这是Google试图了解网站意图的一种方式,他们通过将使用相同词但不同分类的查询视为不同的官方网投实体来做到这一点。

我们看到Google在该专利中使用了语义网方法,使用元组来跟踪可能使用相同单词但证明官方网投者和那些官方网投者意图不同的官方网投’他们对显示在官方网投结果中的页面的反应。

当某人在Google上官方网投[披萨]时,他们最有可能想订购一顿比萨来做饭,但是有些人可能想找到如何制作他们的披萨并想看看食谱。有些人可能对比萨的历史感到好奇–它起源于意大利还是美国?谁发明了披萨?

谷歌可能拥有一个数据存储库,该数据存储库包含有关[比萨饼]官方网投,人们前往的页面以及与每个用户相关联的用户行为的不同查询类别的信息。该数据存储区可能具有关于许多其他主题的类似信息,并且可能被用来预测人们在他们官方网投之后倾向于官方网投什么’吃过他们的比萨饼,或者自己做饭,或者读完比萨饼的起源。 (好,现在我’m hungry).

Classifying queries can help 谷歌 decide what to show a searcher for an individual search.

收集有关人们在执行官方网投后倾向于选择什么以及他们如何回应的知识,可以帮助确定官方网投者对特定官方网投和官方网投结果的满意程度。

查询日志数据通常是有意义的查询替代的来源,正如我在 谷歌 Search Synonyms Are Found in Queries

分享是关怀!

关于2个想法“从用户数据中查询分类”

  1. 很棒的帖子,我对这篇帖子真正感兴趣的是您对“Google有一个数据存储区,其中存储着有关不同查询类别的信息”.

    我没有’t even thought that 谷歌 may have a massive database full of this information.

    继续发贴,喜欢发贴。

评论被关闭。