Google借助搜索引擎查询日志生成统计信息(Google趋势等)

分享是关怀!

从用户查询日志创建的统计信息对搜索引擎和搜索者有何用处?

在世界知识产权组织上发布的Google专利申请, 从搜索引擎查询日志生成统计信息的系统和方法 (在新窗口中打开),探讨如何创建此类统计信息。

该文件列出了Olcan Sercinoglu,Artem Boytsov和Jeffrey,A. Dean为发明人,并于2007年5月9日向WIPO提交了该文件。该文件于2007年11月22日发布,似乎显示了背后的过程 Google趋势。但是它提供的信息远不止于此。

在专利申请中列出的两名发明者的帮助下,进行了一项研究,该研究扩展了此类统计数据的实用性, 网站和Google搜索人类健康和食品信息中的语言首选项.

这里’对该文件的描述,介绍了其用于从与健康相关的网站中创建推荐的方法,该方法结合了Google的查询信息:

为了估算翻译健康和食品网站的Web发布者的百分比,我们测量了Google检索的域名与相同的健康相关搜索词的语言翻译重叠的频率。

为了量化来自不同国家/地区的搜索者的语言选择,Google提供了相对于英语而言六种语言的搜索引擎查询率的估算值“avian flu,” “tuberculosis,” “schizophrenia,” and “maize”(玉米)从2004年1月到2006年4月。

估算值基于来自227个国家的所有Google查询的20%样本。

查询信息可能以不同的方式用于不同的目的,并且诸如社会科学家,营销人员或政客之类的人可能有不同的动机,需要查看不同的数据。该专利申请描述了搜索引擎可以收集什么以及如何使用它:

一个搜索引擎每天会收到来自世界各地的用户的数百万个查询,这会在其查询日志中生成一条查询记录,其中可能包含以下属性:

  1. 查询提交的字词,
  2. 指示搜索引擎何时接收到查询的时间戳,
  3. 一个IP地址,用于标识提交查询字词的唯一设备(例如PC或手机),
  4. 与提交查询字词的用户相关的标识符(例如,网络浏览器Cookie中的用户标识符,
  5. 用户标识符是否与用户已订阅的工具栏或其他应用程序或服务相关联。

这些统计信息的另一个用途的示例可能是发布者计量“根据给定时间段内该城市用户提交的相关查询的频次,该书在特定城市中的受欢迎程度。”

时代精神与热门趋势

We’我们已经在Google官方博客中Artem Boystov的标题为“ Google的官方博客”中看到了一些来自Google的统计查询分析 我们如何得出年终Zeitgeist数据

正如他在那儿告诉我们的,时代精神信息并不’告诉我们搜索次数最多的字词,而是Google进行的查询中从一年到第二年增加的词。

Google扩大了与Google搜索相关的信息共享。’s 热门趋势发展趋势。根据Google搜索,您可以查看一些有趣的工具来查看是否需要及时查看哪些类型的术语和新闻。

其他Google专利申请中的查询分析

Google还能如何使用与查询相关的信息?有许多Google专利文件描述了搜索引擎可能使用该信息影响搜索结果排名的方式。以下是其中三个值得一看的内容:

专利申请中描述的方法的某些方面

隐私保护 —该过程试图包括一些安全措施,以防止泄露可能追踪到个人或小组用户的信息。

查询记录信息 —描述了查询记录中可能包含的内容的不同部分,例如查询术语,与搜索关联的时间戳,映射到设备搜索来源的IP地址,cookie信息或其他用户标识信息,以及可能的理解方式与查询关联的语言。

抽样方案 — It’可能不必查看与查询相关的所有查询记录,并且该专利申请描述了许多不同的可能方式来对查询数据进行采样,这将涉及仅查看数据的百分比–可能是10%到20%。可以查看每五分之一的查询,或者可以使用IP地址信息将查询分为多个地理区域,然后可以采用一定比例的查询,以便’来自不同地方的结果多样化。

查询会话 —在给定的时间段内,来自同一IP地址的查询记录的数量可能会受到限制,以避免样本来自“被与查询垃圾邮件等恶意操作相关的虚假查询数据破坏。”但是,查看来自同一IP地址的查询记录可能会提供重要信息。例如:

通常,用户可以在很短的时间内向搜索引擎提交多个相关查询,以便找到感兴趣的信息。例如,用户可以首先提交查询“法式餐厅,帕洛阿尔托,加利福尼亚”,以查找有关加利福尼亚帕洛阿尔托的法国餐馆的信息。随后,同一用户可以提交新查询“加利福尼亚帕洛阿尔托的意大利餐厅”,查找有关加利福尼亚帕洛阿尔托的意大利餐馆的信息。

这两个查询在逻辑上相关,因为它们都与在加利福尼亚州帕洛阿尔托的餐馆搜索有关。可以通过以下事实证明这种关系:两个查询在时间上紧密提交,或者两个查询共享一些查询字词(例如,“restaurant” and “Palo Alto”).

了解查询会话 —当所使用的术语看起来相关时,可以从单个用户短暂地查看查询会话,例如十分钟,假定所有查询都相关,也可以查看较长的会话,例如两个小时。多任务处理,当搜索绝对不相关时,例如搜索“apple iPod”其他搜索是针对帕洛阿尔托的餐厅的,即使它们将继续与相同的用户和/或Cookie信息相关联,也可以分为多个单独的查询会话。

查询提取启发式 —此过程可能遵循的准则规则,例如确定连续查询如果共享某些查询词或是否在预定时间段(例如十分钟)内提交的连续查询属于同一会话,即使存在其中没有通用的查询词。

使用时间戳组织查询 —查询会话开始(或结束)和地理值(来自IP地址)的时间戳可能是组织查询记录的另一种方式,并且对于汇总有关这些查询的使用信息很有用。上面提到的Trends或Zeitgeist应用程序将从这种组织中受益,尽管该信息也可以其他方式使用。

查询会话记录的分区 —这些记录太大,单个计算机服务器无法有效地处理它们。很大一部分专利申请都详细介绍了用于划分这些查询日志记录并搜索该信息的不同策略。如果你’对这些不同方法中的某些方法可能很感兴趣,本文包含了许多示例,它们可以带您完成所描述的一些过程。

与特定查询词相关的统计信息接口

该专利还告诉我们他们如何显示与特定查询词相关的用户的一些统计信息。包含的屏幕截图没有’与Google搜寻的搜寻结果看起来不太一样“iPod”.

随着时间的推移在查询中的受欢迎程度 —我们可能会看到一个图表,其中显示了在特定时间段内某个术语的受欢迎程度。该信息的曲线上显示的每个数据点可能对应于在特定的一周内提交了至少一个与该词条相关的查询的用户数量与该周内提交任何查询的用户数量之间的比率。图中的峰谷表明’受欢迎程度随时间而变。

随着时间的新闻报道 —另一条曲线可能表示同一时期内该术语的新闻报道量,曲线上的每个数据点都告诉我们该术语在该周内的出现次数’s news coverage.

城市,国家和语言 —可能会显示选项卡,这些选项卡提供有关基于城市,国家和语言的特定查询的使用情况的统计信息。在“城市”下,标签可能是用户数量最多且提交了至少一个与该词有关的查询的前十个城市。这些数字可能不是从这些城市搜索的实际用户数,而是一个标准化值。使用这种归一化的价值,我们了解到在特定城市或国家或使用不同语言的特定术语的搜索量正在增加。

按时间或地点排序 —可能还包括下拉列表,这些列表反映了基于特定月份或特定国家/地区的查询会话记录的统计信息。

结论

和搜索引擎一样重要’Web的索引可能是,他们的查询会话信息索引可能同样重要,因为它可以提供人们正在寻找的内容以及他们如何尝试查找该信息的许多见解。

有关这些搜索的信息,例如何时何地进行以及在查询会话的上下文中如何使用它们,这些信息可能对搜索引擎和其他搜索引擎有用。–例如上面我链接到的与健康相关的网站的研究示例。

能够分析用户查询信息可用于个性化搜索结果,将不同的查询词联系在一起,确定哪些主题和搜索词是及时的和哪些是季节性的,有助于理解人们如何不同地搜索不同的主题,以及还有很多其他方式

分享是关怀!

关于17的想法“Google借助搜索引擎查询日志生成统计信息(Google趋势等)”

  1. 嗨,比尔,

    我实际上以为Google已经通过个性化搜索并启用了您的搜索记录来做到这一点(或尝试过)。我在一个非常实用的示例中了解到,此查询字词会话分析或记录的以前的搜索并没有使Google在经过5次以上的搜索以及对一个特定利基主题的2-3个网站的访问后意识到,

    被访问的站点是几分钟的访问,这应该表明这些站点与我显然感兴趣的特定主题具有相关性,并且应该已经出现了清晰的模式。 Google工具栏也开始意识到我浏览了这些网站上的许多页面并查看了内容,然后在页面上向下滚动等。寻找了有关同一主题的一堆网站之后,我是否进行了搜索?如果不考虑上下文,则该关键字不明确。我希望Google能够意识到我对特定主题的网站和信息感兴趣,以便能够过滤掉一些与主题无关的模棱两可的结果,并在与我的关键字以及主题或主题相匹配的同一页面上进行搜索。

    谷歌没有’不能那样做。排名靠前的页面(超过排名前10的页面)全都不相关。我觉得它没有’不要对收集的数据做任何事情或做很少的事情。希望他们会对此有所改善。

  2. 嗨,卡斯滕,

    希望您感恩节快乐。

    该专利申请确实涵盖了一些领域,这些领域对于那些关注Google的个性化论文和专利申请以及Google如何使用查询信息的人们来说应该是很熟悉的。

    我没有’在撰写本文之前,我没有看到我链接到的有关对不同查询进行研究的论文,以查看可以使用不同语言获得的哪种信息,并且’很高兴看到查询日志文件如何为研究人员提供一些有用信息的具体示例。

    该专利申请还提供了有关Google 发展趋势工作原理的信息,比我以前在任何地方看到的要多,并且为我们提供了一些新的词汇,以及思考在搜索引擎中查询分析工作方式的方式。

    考虑到所有这些,使用查询分析进行个性化仍处于起步阶段,所有迹象都表明它正被用于统计培训模型中,就像大多数机器学习过程一样,它需要时间和大量信息才能产生很大影响。您’可能已经看到它更有效地用于拼写更正等领域,在这些领域中,查询细化的汇总导致“did you mean xxxx”某些搜索顶部的邮件。

    我认为可以说Google’在个性化工作中使用查询分析有很大的发展空间。

  3. 是的,我的例子可能会给他们一些实际的想法。我不确定Google在确定“热门社区”,这是我们所知道的Ask.com的强项,但是它将能够根据先前的查询,点击流以及点击后的网站访问时间和详细信息来解决查询的歧义。

    我可以告诉你我的例子。我正在搜索演示方,其名称不明确,例如“The Gathering” or “Assembly”。您必须使用限定词来查找它们,例如“The Gathering” + Norway and “Assembly” + demoparty (or “demo 派对”).
    这也不是问题。我寻找了这些内容,并浏览了它们以及与该主题相关的其他一些网站。这些政党仍然存在,每年举行一次或两次。

    当我花些时间在玩这种东西时,我是在尝试获取有关该演示方的更多信息,名称为“The Party”从1991年到2002年,每年圣诞节和新年期间在丹麦举行

    http://en.wikipedia.org/wiki/The_Party_%28demo_party%29

    我不想在查询中使用过多的限定词,因为我想找到尽可能多的信息和与之相关的数据。 Demo-scene和Art-scene素材的索引很差,不是Google’的错误,但归因于与网站架构相关的经典SEO错误。

    无论如何,查询“The Party”在我进行所有其他查询和现场访问之后,由于相关性,应该导致SERPS中与关键字匹配的演示场景相关的页面增加。我得到了各种各样的“party” related stuff back that was related to the subject like a fraternity 派对 to the 750 anniversary 派对 of Berlin.

    您可以’在消除歧义方面变得更加通用,例如“the 派对”, 对?根据以前的搜索和站点访问活动(我什至可以使用我在Google或Gmail数据书签中的书签)检测到我似乎感兴趣的主题,并根据结果重新排序,这将是一件幸事。

    干杯!

  4. 嗨,卡斯滕,

    在您提供的上下文中,该特定术语(“政党”)对于试图进行某些个性化设置的搜索引擎来说可能很难解决。

    通过它自己,“party” can generically refer to a political organization, to an individual or group of people (the 派对 in question), to a celebration, to participants in a wedding, and probably a few other uses. The other part of that term (the) may often be seen as a stop word.

    也可能难以识别“The Party”作为一个概念或语义上有意义的单元,因为它’s likely that “The Party”出现在Web上的许多其他上下文中。

    搜索引擎可以识别该词指的是特定事件吗? Google和其他一些专利和论文在命名实体的背景下探索数据提取–特定的人,地方,物体和事件。那些人可能会为这样的通用名称而苦恼。这里’涉及该类型提取的一种方法:

    从网络上无监督的命名实体提取:一项实验研究 (pdf)

    将过去的搜索与一些通用术语(例如,“The Gathering” or “Assembly”并访问描述特定事件的页面,并搜索通用术语的另一种异常用法“Party?”我怀疑这可能是一个重大挑战。 ðŸ™,

  5. 谁说这很容易? ðŸ™,至少我尝试将它们扔一些骨头,以使它们更容易使用。我知道启用了个性化功能,并尝试发送尽可能清晰的信号,希望Google能够识别该主题。

    主题是一个非常独特的主题。看看Picasa相册中的图片,其中的一些图片“types” of parties and tell me if you recognize a unique theme there that separates them from any other type of 派对 🙂

    http://picasaweb.google.com/Carsten.Cumbrowski/SceneParties

    好吧,这是测试与“themes”和/或检测“named entities”基于过去的查询,点击和访问的页面,当然还包括书签和Gmail数据,Picasa相册(ð™)等。

  6. 卡斯滕

    That does look like an interesting 派对 —很多人和很多计算机。

    I’我想知道如果图片具有标签,标题,描述和注释以及诸如地理标记之类的内容,搜索引擎是否会选择其中一些主题。您确实有一个组标题(“现场聚会”),但在文本内容方面没有太多其他名称。

  7. 一如既往的好东西B’。我看到了更多的用户数据。还有很多针对⬬œœhistoricalâ,¬,¢元素,这是特别令人感兴趣的。我也喜欢看“查询垃圾邮件”的部分,这是因为我本周末花了一些时间来研究如何在用户性能指标环境中发现漏洞。

    我也很喜欢收集方法。最初,我并不相信“?”,“被动”,“?”收集方法能够传递足够强的信号,但很多方面已经改变了。除了通过Cookie或IP提及Cookie / IP之外,Google工具栏通过FireFox泛滥成灾的情况进一步加剧了这一原因(以及Google Pc等人)。

    我也看到â,¬œœterminologyâ€的提示,开始发生ââ€,要做很多事

    与那天’谈话很快。

    戴夫

  8. 谢谢,戴夫。

    我认为用户数据的最大挑战之一可能是’太多了。提出一种或多种采样方法和有用的启发式方法是迈向使用可行的大量信息的第一步。

    专利中有关查询垃圾邮件的陈述很有趣,我怀疑在我们尚未涉足的领域中已经做了更多工作’不被告知这里,这可能是一件好事。

    I’我看到Google收集浏览和搜索信息的能力正在提高。

    Google正在收集的与他人共享的信息的另一个来源是 网站搜索信息 在Google 分析工具(分析)中。

    想象一个搜索引擎收集这样的信息:您在搜索引擎上使用特定查询进行搜索,单击结果,浏览该站点上的页面,然后在其站点搜索中搜索该站点。搜索引擎查询日志,工具栏浏览活动日志以及Google 分析工具(分析)和网站搜索记录是否可以某种有意义的方式捆绑在一起?

    It’有很多信息,但这对您有帮助吗?有可能。

  9. 嗨,比尔,

    我不做的一件事’关于Google Picasa的一点是,它不显示图像的文件名。您可以找到它,但它被掩埋了。如果未提供标签,那么能够在详细信息甚至图库中正确看到它会很好。当您将鼠标悬停在缩略图上时,还应显示名称和其他信息(至少作为工具提示)。“organize gallery” screen.

    文件名在大多数情况下都是非常具有描述性的,并且名称本身通常具有事件的名称和年份。无法快速标记大量图像,尤其是在单个集合中,这是提供批量编辑功能的最佳选择。我会去标记更多的图像,如果将标记存储在图像本身中,以便它也可以被其他服务(例如flickr)重用,则有一些空间可以存储一些信息。我注意到有些图像显示了诸如用于图片的相机之类的东西。

    好,那就足够了“off topic” stuff hehe.

    This type of 派对 can’我在美国的任何地方都经历过。图片很好,但是您必须看到它才能在现实生活中相信它。它’s疯狂而有趣ðŸ™,(好吧,很有趣,我参加的最后一个演示派对是“The Party 1998”在丹麦海宁。它’是极客,但我不知道’不要否认自己是个ðŸ™,

  10. 嗨,比尔,

    每次我访问您的博客时,我的想法都会旋转。 Google可以访问的用户数据(通过战略性地开发获得该用户数据的产品)以及他们在理解和利用该数据方面所做的投资令人惊讶。

    诸如Google趋势之类的工具提供的访问权限有限。我们开始使用一个关于用户意图的宝贵信息的表面刮擦界面。如果地球上有任何实体了解世界的利益,欲望和需求’的公民是Google。

    像这样的数据,由情报支持以进行解释,这是印钞的许可证。

  11. 嘿林赛,

    It’很高兴见到你。话虽这么可怕,但我想知道雅虎是否拥有比Google还要更多的用户数据。除了搜索及其社交应用程序外,还有很多人在使用Yahoo门户服务。 Yahoo Buzz(过去)经常展示他们正在观看的内容。 Ask.com也关注 趋势和用户数据.

    知道人们在寻找什么,在哪里;我认为你’没错,就像印钱的许可证一样。与搜索引擎收集的情报相比,销售广告显得苍白无力。

    卡斯滕

    看看可以对Picasa进行什么样的改进将是很有趣的,尤其是对于某些 Google收购的技术 来自Neven Vision等公司。猜猜我们需要等待一些。

    I’ve been to a few barcamps, which seem to share a spirit with a demo 派对, but not the proliferation of computers (though I’我猜想我见过的大多数人中至少有一个计算设备,尽管大多数人可能是智能手机。

    在2006年搜索引擎策略会议在圣何塞举行的同时,镇上又召开了一次会议,讨论使用可穿戴计算设备的人们。他们做了很多有趣的事情,例如使用移动计算设备进行寻宝,并在发现较旧的位置时获得了新的线索。–在掌上电脑上显示图像和地图。

    看起来他们玩得很开心。

  12. Pingback:如何使用Google“查询值得新鲜”或QDF模型使您受益
  13. pingback的:热还是不? Google真的使用新的排名算法吗? | Fenetre营销博客
  14. Pingback:搜索引擎查询,分析得到改进«秘密搜索引擎实验室的博客
  15. 哇’有趣的是,仅仅三年前,我们’在谈论Google如何使用搜索查询来确定’s viral. Ahaha.

  16. 嗨,布莱恩,

    我认为搜索引擎可用的数据范围越广,确定哪种病毒可能会越传播越好。

    虽然它’可以查看来自微博网络(如Twitter)的信息,以找到类似的信息,这是一件好事,至少是从Google那里’从使用查询日志的角度来看,Google拥有更多有关搜索信息的访问权限,并且可以更轻松地对该数据应用更多过滤器以消除噪音。

评论被关闭。