Google和像Panda这样的大规模数据模型

分享是关怀!

搜索引擎优化的增长和变化与Web本身一样。随着Google Plus最近在Google提供的服务中的加入,今年’引入大熊猫更新后,SEO的增长领域之一就是了解Google和其他搜索引擎如何整合更多内容 用户信息 他们如何对网页进行排名。 Google Plus的推出突出了研究搜索引擎如何收集有关人们如何搜索,他们如何浏览Web,他们在网上发布什么以及他们如何与社交网络中的其他人交互的信息的重要性。处理这些信息。

随着熊猫更新,我们’曾经看到Google引入了一种在大型数据集(如Web)中建模信息的方法,以试图识别和预测网页的功能,这些功能不仅可以根据相关性和受欢迎程度(基于指向链接的方式)来对网页进行排名到那些页面),还可以 其他功能范围 例如信誉,信任,独创性,主题涵盖范围,可用性等。

I’一直在回顾Google发布的一些专利,然后碰到了几本’他们最初发表时讨论了很多,也许应该多谈一些。

奇怪的是,其中之一与我在2007年发表的一篇题​​为《微软》的专利非常相似。 通过跟踪用户,查询和网页的三元组进行个性化。 Google的专利涉及通过预测面对一组搜索结果的搜索者可能选择的页面来对Web上的文档进行排名。该预测基于数千万形式的数据收集“instances,”或收集的有关查询,用户和文档的信息。该专利最初于2003年提交,于2007年获得授权。

大约在授予专利的同时,谷歌的同一组发明者又发布了另一项专利,该专利不太关注用户数据,而是更多地致力于使用机器学习来构建有用的预测模型,该模型可以帮助识别电子邮件中的垃圾邮件,或者预测人们可能会发现哪些广告点击付费搜索,或在自然搜索中如何对网页进行排名。

数据实例

在第一项Google专利中,正在构建的模型结合了来自用户的数据,他们使用的查询以及他们可能选择或可能未选择的文档的组合。这些组合中的每一个都称为“实例。实例是“triple”(u,q,d),其中u是用户信息,q是来自用户的查询数据,d是与从查询数据返回的页面有关的文档信息。

一些示例包括:

  • 用户u所在的国家/地区,
  • 时段用户u提供了查询q,
  • 用户u所在国家/地区的语言,
  • 用户u提供的前三个查询中的每一个,
  • 查询语言q
  • 查询q的确切字符串,
  • 查询q中的字词,
  • 查询q中的字数,
  • 文件d中的每个字,
  • 文档d的统一资源定位符(URL)中的每个单词,
  • 文档d的URL中的顶级域,
  • 文档d的URL的每个前缀,
  • 文件d标题中的每个字,
  • 链接中指向文档d的每个单词,
  • 查询q的文档d上方和下方显示的文档标题中的每个单词,
  • 查询q中的单词与文档d中的单词匹配的次数,
  • 用户u以前访问文档d的次数,以及
  • 其他信息。

这只是搜索引擎可以存储的少量信息,该专利指出’数据存储库可能会收集超过500万个不同的功能。

该专利是:

根据大型数据集对文档进行排名
由Jeremy Bem,Georges R.Harik,Joshua L.Levenberg,Noam Shazeer和Simon Tong发明
分配给Google
美国专利7,231,399
2007年6月12日授予
归档:2003年11月14日

抽象

系统至少部分地基于排名模型对文档进行排名。可以生成排名模型以预测将选择文档的可能性。该系统可以接收搜索查询并识别与该搜索查询有关的文档。然后,系统可以至少部分地基于排名模型来对文档进行排名,并且形成来自经排名的文档的搜索查询的搜索结果。

除了收集有关每个实例的大量信息外,该模型还用于查找数据之间的联系,以建立有关人们如何搜索网络,他们使用的查询以及他们选择或决定不单击的页面的模型。 。

因此,收集的查询数据可能包括用户先前提供的用于查找特定页面的搜索词,用户数据可能包括Internet协议地址,Cookie信息,查询语言和/或与用户相关联的地理信息,文档信息可能包括有关在搜索结果中显示给用户的特定页面的数据,以及这些文档在被选择或传递时所处的位置。

这种预测方法的重点之一很大程度上取决于是否在搜索结果中选择了页面。这似乎是一个潜在的问题。

当某人从搜索结果中选择要查看的页面时,他们所看到的只是页面标题,摘要和URL。他们不是’不能根据文件本身做出判断。就个人而言,当我执行搜索时,’如果它们看起来与我的信息需求有些相关,通常会在新选项卡中打开许多结果。我喜欢拥有不止一个信息来源,并且我希望看到几页可以比我只看一个页面提供更好的答案。这些选择不’不一定意味着我发现一个文档比其他任何一个文档都更相关或更高质量。

基于文档特征的模型

While the idea of looking at instances and 三倍s of data involving users, queries and documents is interesting and potentially a useful way of ranking documents, the model building aspect of that patent might be useful if focused in other areas as well. 的 second patent from Google sounds like a document classification model approach that could potentially power an update like Google’s Panda.

它没有’它没有专门针对网页排名,但是它告诉我们,这种模型构建可以通过多种方式发挥作用:

可以生成不同的模型以用于不同的上下文。

例如,在示例性电子邮件上下文中,可以生成模型以将电子邮件分类为垃圾邮件或普通(非垃圾邮件)电子邮件。

在示例性广告上下文中,可以生成模型以估计用户点击特定广告的概率。

在示例性文档排名上下文中,可以结合搜索来生成模型,以估计用户将发现相关的特定搜索结果的概率。*在存在大量数据项作为训练模型数据的训练数据的其他情况下,可能会生成其他模型。

(*我的重点)

该专利是:

大规模机器学习系统和方法
由Jeremy Bem,Georges R.Harik,Joshua L.Levenberg,Noam Shazeer和Simon Tong发明
分配给Google
美国专利7,769,763
2010年8月3日授予
提交日期:2007年4月17日

抽象

提供了一种用于生成模型的系统。该系统生成或选择候选条件,并生成或以其他方式获得有关候选条件的统计信息。该系统还至少部分地基于统计数据和候选条件形成规则,并将该规则选择性地添加到模型中。

该专利中描述的分类模型是根据包含多个属性或特征的训练数据构建的。该专利主要提供了涉及电子邮件和垃圾邮件检测的示例,但正如发明人所指出的那样,该专利可用于预测人们点击的广告或特定搜索结果与搜索者的相关性。

例如,在电子邮件环境中,分类系统可能需要查找的一件事是提及该词“free”。否则它可能会寻找感叹号字符串!或者它可能会寻找功能的组合,例如提及该词“free”来自Hotmail域。可能在一组训练数据中考虑大量功能,作为可能表明电子邮件是否存在的候选项。’t spam.

该专利还告诉我们,在像这样的分类模型中使用训练集的困难之一是当今的分类系统只能处理少量的训练数据。

使用MapReduce处理大型训练集的突破,如 PLANET:使用MapReduce大规模并行学习树组合 (pdf),由Biswanath Panda,Joshua S. Herbach,Sugato Basu和Roberto J. Bayardo撰写,可能是帮助Google克服这一局限性的技术解决方案之一。 PLANET论文描述了一个实验,该实验涉及基于预测模型来预测广告的点击率,该预测模型基于与那些广告相关联的特征以及它们所指向的目标网页。有关实验的详细信息,请参见 预测赞助商搜索广告中的跳出率.

跳出率 paper describes looking at 三倍s of data that Google collected involving (q, c, p) query terms (q), creatives or advertisements (c) and landing pages (p). 的 paper also describes some of the specific features that they might rate sites upon, such as terms used in advertisements and landing pages, related terms used in those documents, categories that pages might fit into, and more.

该专利还描述了三种可以创建模型的不同方法,以及如何识别和测试可以添加的新功能。

结论

如果你’对Google感兴趣’s Panda updates, it’值得花一些时间浏览PLANET和 跳出率 论文,以及这些大规模数据模型专利申请,以了解Google可能如何开发他们用于根据其种子集中的页面内发现的特征或与之相关的特征对页面进行分类的模型’ve曾经排名页面。

It’Google可能建立了与这些文档中描述的分类模型有些不同的分类模型,但最终结果是相同的。建立这些模型的方法可能不如他们选择作为训练集的页面以及他们认为重要的功能重要–我可能在上面引用了Amit Singhal链接到的Google Webmaster Central博客文章中暗示的那些可用于定义质量,信誉,独创性,主题范围和其他质量的内容。

大数据集专利通过2018年授予的延续专利进行了更新。 基于大数据集的搜索排名模型专利已更新

分享是关怀!

关于31条想法“Google和像Panda这样的大规模数据模型”

  1. 有趣的你’多年来将这些专利重新结合在一起。我同意Panda技术的确可能使Google以以前无法实现的方式将信号整合在一起。

    但是,我认为关键的突破更有可能记录在“树木的模型概要问题和解决方案”因为该案例研究直接涉及组织大规模数据,目的是识别与实际观察结果匹配的正确模型。

  2. 谢谢比尔,

    A combination of user data, query data and document data to define the relevant information sounds like a neat way to start a 机器学习 principle. I would hazard a guess that correlating the click through data against the 弹跳 rate / time spent on page / next user search would go someone to suggesting the precision of the response from the engine. I’我不确定这在选项卡式浏览中如何工作,但是可以说一下单击链接的顺序。

    我想那–通过获取来自单个用户的单个搜索查询的本地化数据,并将其与u,d和q数据类型为n的另一个搜索查询进行互相关’t identical wouldn’不能给出有效性的真实比较,但可以用来定义趋势。可以使用Google已启用的自动填充选项来减少u字段中的变量数量,可以使用用户个人资料通过历史范围定义用户趋势数据。

    It’当然也可以给予更多考虑– I know I’我会考虑一会儿。

  3. 嗨,迈克尔,

    I’我一定会尽我所能为熊猫更新建立一些背景。从我身上’在与Matt Mattts和Amit Singhal进行的《有线采访》中,我读到的更新是在涉及到名为Panda的任何人之前进行的。似乎涉及Panda的技术突破确实能够建立一个分类系统,该系统可以处理非常大的数据集,或者至少专注于涉及网站本身而不是用户活动的观察数据,然后可能将该用户数据包括在内。一种反馈机制,以查看Panda背后的预测模型是否实际上正在寻找最相关的网站。行星论文指向第一个–以可以处理大量模型的方式使用MapReduce。 Cutts和Singhal的采访指向第二个–熊猫帮助他们将注意力集中在页面和网站上的功能上,而不是用户的点击上,以查看这些功能是否可以帮助预测点击量。所以’他的影响有可能在两个方面有所帮助。

    模型摘要文件, 树木的模型概要问题和解决方案,主要关注于观察有关鸟类生态学的大量观测数据,并找到从这些数据中提取有意义和有用模式的方法。

    我希望它更直接地集中于如何使用基于集合决策树的预测模型来尝试识别可能与特定查询最相关的页面或站点。上下文有很大的不同,以至于我阅读它的前4到5遍,我想知道Biswanath Panda是否故意掩盖了他的著作,但他的合著者之一是鸟类学家和美国国家科学基金会的资助这一事实是该论文背后的研究获得奖项使我相信,他的意图确实是帮助科学家更轻松地以有意义的方式解释大量观测数据。

    “模型摘要”论文还涉及构建摘要,这些摘要可能会从大量的观测数据集中产生有用的数据,而不会’它涉及将有关页面的观察结果纳入特定页面或站点的排名的实际提升或降低的过程。从构建这种摘要到将其合并到排名中可能并不遥远,但是’是有趣的部分之一。页面上的哪些实际功能使其更可能与特定查询相关?哪些功能使页面与某些查询相关的可能性降低?哪些功能组合会起到相同作用?为什么有些网站可能整体上受到惩罚,而另一些网站却只排名下降?

    如果为了确定特定页面的相关性而对文档进行分类的过程创建了预测,是否将实际的用户数据用作熊猫分类的反馈?如果是这样,那就可以解释为什么熊猫不是’这是一个持续的更新,但似乎只是每隔一段时间进行一次,因此可能会收集涉及熊猫生产的变更的实际用户数据,以提出可能的附加规则或对培训集中包含的站点进行变更。

    您将如何干扰“模型摘要”论文,因为它可能适用于相关性和搜索排名?

  4. 你好汤姆,

    我认为,最初的想法是在2003年提交的专利中,正是按照您所指出的那样,使用用户信息对页面进行了分类和排名,但是它可能会遇到一些问题,我认为2007年的专利可能已经打算修复。

    其中之一是,如果没有网页’如果访问者排名很高,则可能不会吸引大量访问者,并且可能没有太多与之相关的用户行为数据。第二个是人们浏览搜索结果并点击一个区域’不一定要决定单击文档本身,而是决定搜索引擎生成的摘录中的摘要。该代码片段本身可能非常好,但是它所指向的页面可能不尽如人意。

    因此,问题是,最好是根据相关性预测,分析一些已知的非常高质量的网站的功能来对结果进行排名,然后将用户信息用作反馈,以查看您的预测是否准确?

  5. 当你’重新生成模型摘要,它不会’t matter if you’重新查看世界各地不同高度的鸟类的观测结果,或者’重新查看由文档分类器生成的文档的分数。

    每个模型摘要均假设如何对数据进行排序。该算法找到了一种快速计算模型摘要的方法,从而可以确定与人为划分的数据的最佳匹配。

    PLANET论文奠定了基础。模型摘要文件显示了该过程如何进行。我认为这是一种概念证明。

  6. 嗨Micheal,

    谢谢。这些都是好点。我写的专利申请是有抱负的–希望能够获取大量的观测数据来建立预测模型,但是他们没有’描述构建可操作摘要的最后一步,可用于确定哪些页面可能与哪些查询最相关。就像能够预测模型摘要文件中何时何地可以看到哪些鸟类一样。

    作为概念的证明,它确实运行良好。

  7. Bill, I always felt that google is using a predictive model for user metrics like CTR, 弹跳 etc. using the features extracted from the page. This was ever since I read that paper on 弹跳 rate and had even shared it with other folks on webmasterworld. It all makes sense considering the fact that panda is run separately and is triggered manually.

    他们似乎通过对从文档中提取的已解析术语进行一些数学运算来得出这些指标。由于大多数预测都是可以预测的,因此误报的可能性很高,因此Google在告知熊猫更新时承认了这一事实。

    您认为它们从文档中提取了哪些功能?您认为它们在做什么?关键字密度之类的东西会直接或间接影响这些指标吗?

  8. 老实说我不会’毫无疑问,跳出率已经成为网站排名的因素,因为我的视频页面似乎总是会爬到目标关键字的顶部,原因是这样的(我认为):我的假设是,访问页面的人的网站上有一个视频,观看整个过程,然后单击返回google,告诉google他们在我的网站上停留了多长时间。如果这已经很长时间了,那么google会看到它,并认为该网站很有帮助,因为用户在该网站上花费了很多时间。那’我的证据表明跳出率确实已对搜索排名产生影响。

  9. it’很难想象Google可以通过搜索存储有关每个人的尽可能多的数据!
    使用了什么电源和存储!
    我认为,自从这些专利发布以来,Google’相对于存储大小和增值,测试和分析要存储的最有趣的数据是什么。有关文档或文档的信息可以更容易地汇总。

  10. 我认为Google’我们本周做出让步,他们为熊猫程序添加了更多信号,为您的研究提供了支持’做,比尔。即使你没有’识别出正确的信号,您’重新走上正确的轨道。

    人们现在需要考虑搜索引擎如何以完全不同的方式评估其网站。 Bing可能还没有熊猫之类的东西,但我’确保他们会走那条路。 Yandex似乎是第一个让人工智能进行评估的主要搜索引擎。

  11. 嘘。听起来像我’m saying you’不要识别正确的信号。迪登’这并不意味着它会以这种方式出现。当然我们不’Spock先生,我不知道,但我相信您的猜测远胜于其他许多人’s facts.

  12. 看看Google如何使用现在将从Google+个人资料中收集到的数据来改善个人搜索体验将非常有趣。

    这种用于大型数据集的分类系统是否类似于PSLA和信息检索?如果是,那么Google如何获取用户信息(例如偏好或搜索意图之类的信息)并将其应用于其算法?

  13. 如果您完全了解指标以及Google如何进行数学运算,这是非常重要的事情’认真对待成功对您的网站进行排名。

    随着Google+的出现,我’我真的很好奇Google如何处理流入的信息。

  14. 嗨Rajesh,

    It’他们可能正在使用涉及页面本身数据的预测模型。例如,如果他们要挑选可能与该主题相关的术语,则该页面可能是关于该术语的,以及在这些页面上使用的术语的频率(尤其是对于那些不’不会以很高的频率出现在网络上),这可能会告诉他们一些有关主题的范围和覆盖范围。这可能是熊猫所涉及的要素之一。

  15. 大卫,您好

    您如何定义一个“bounce”?如果他们只是查看单个页面,然后返回Google,’t that be a 弹跳, even if they spent time on that page watching a video? It’s possible that instead of defining that user activity as whether or not it was a 弹跳, they might instead be looking at the duration of a stay on a page, or what sometimes might be referred to as a “long click.” 那里’提到这可能是Google在书中看到的信号“In the Plex” 通过 Steven Levy.

  16. 嗨,尼古拉斯,

    我确实相信Google会存储比Web本身更多的有关Web使用信息的数据。令人难以置信的思考。

    是否使用此类数据的挑战可能不是那么大,而是要使用哪些数据以及如何使用它。

  17. 嗨,迈克尔,

    谢谢。我同意人们应该对搜索引擎如何评估其网页的想法有所不同。关于Panda的一些问题是我建议在Panda之前解决的问题,例如,尽可能消除可以在网站上的多个URL上访问页面的机会,或者尽量避免使用非常薄的页面。但是,现在要关注的信号范围可能会更大。

  18. 嗨安德鲁,

    虽然我同意您的看法,但我认为您最好的机会是了解正在使用的指标以及适用于Google的数学知识。我不’认为尝试尽可能多地了解自己正在做的事情可能有害。

  19. Thanks bill. If they are using user engagement data, I am almost certain that they are using some sort of predictive model to compute those metrics. Any analytics tool can be set up differently 通过 different users to report 弹跳, etc. in different ways.

    预测模型可确保这些指标的计算方式统一。人们认为google使用自己的分析数据来骚扰网站,甚至许多人都放弃了这些工具。但是许多人仍然认为Google必须手动收集这些数据才能知道它们。

  20. “所涉及主题的范围和覆盖范围”

    您似乎在说些与他们的阅读水平(基本,中级和高级)非常相似的东西。这有什么不同吗?关于如何确定这些阅读水平的任何想法?

  21. 您好Rajesh

    我怀疑Google使用的是与页面本身及其内容有关的数据,与页面有关的可能的站点级信息,甚至可能是与附属站点和功能相关的信息,以预测页面与特定主题和查询的相关性条款。这些特征和与它们相关联的度量是基于站点的种子集来标识的。然后,与这些站点关联的用户信息可能会被用来衡量那些预测的价值,而不是被直接用来影响那些站点的排名。

    Google有很多收集用户信息的方法,我不知道’认为他们根本不需要查看Google 分析工具(分析)数据。

  22. 感谢Bill的文章链接,非常感谢,尽管我会读得很好

    一个非常好的博客,很高兴我遇到了它!

    最好

    加里

  23. 嗨Rajesh,

    我所说的是Google可能会查看页面上有意义的术语和短语及其用法,以确定某个主题可能被涵盖的程度。

    例如,在一个关于棒球场的相当薄的页面上,我们可能会被告知体育场的位置,可以容纳多少人以及其他一些信息。在质量更高的页面上,我们可能会被告知公园的大小,在那儿玩的球队的记录,一些历史性事件(汉·亚伦在那获得了本垒打的记录,在球场上进行的完美比赛等),雕像围绕零件等等。这可以通过查看页面上包含的术语范围以及可能的一些共现数据来完成。

  24. 再次感谢bill。那是一个很好的例子。但是我仍然不确定这与阅读水平分类有何不同。您在该示例中为薄页建议的示例元素是我认为我会在基本阅读水平页面上看到的内容,而有关公园尺寸,事件历史等的元素可能会在中间或高级页面,具体取决于覆盖范围。

    我同意您这样一个事实,即它们直接使用多个数据点来关联事物。

  25. 嗨Rajesh,

    简单的阅读水平算法’确实要查看内容主体中用于确定阅读水平的特定术语,而是要考虑单词长度和句子长度之类的内容。例如:

    http://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_test

    Google似乎提出了一个稍微不同的方法:

    http://www.seroundtable.com/google-reading-level-algorithm-12638.html

    阅读水平为’与我所描述的话题的深度相同。内容薄的页面可以使用其中包含很多音节的长句子和单词,被认为是具有很高阅读水平的内容。一个页面涵盖了主题的各个方面,但使用较小的单词和较短的句子,可能会被视为厚实的页面,阅读水平较低。

  26. 嗨,比尔,
    谢谢您的注意。您的文章很棒。我希望能定期与您联系。谢谢你的分享。
    丽兹

  27. Pingback:Algorithme Google Panda

评论被关闭。