The Google 熊猫 Patent?

分享是关怀!

“所有蘑菇都可以食用;但只有一次。” ~ Croatian proverb

Google今天获得了一项专利,该专利可用于收集与不同类型的蘑菇相关的功能的种子数据集,从而“根据样品的预定特征确定样品是否有毒。”该专利还描述了该过程如何用于基于电子邮件中发现的功能来帮助过滤垃圾邮件,或者确定页面上的图像是否为广告,或者基于文本特征确定网页上的页面类别在这些页面中。该专利的下图显示了如何确定图片的特征,例如高度,宽度,页面上的位置,标题等,同时确定其是否为广告:

该专利的屏幕快照,显示了如何将有关图像的特征信息收集为数据点,以便与其他图像进行比较。

可以使用产生已知结果的数据来训练这种机器学习方法,然后可以将其应用于非常大的数据集,以根据数据种子集中识别出的模式对数据进行分类。 Google发布时 在搜索中找到更多高质量的网站 in February of 2011, they introduced what would become known as the Big 熊猫 update. The approach was further elaborated on 通过 Google’大约一周后,在《连线》杂志的专访中,马特·库茨(Matt 割肉 )和阿米特·辛格(Amit Singhal) TED 2011:“Panda”讨厌农场:问&A With Google’的顶级搜索工程师.

In early May of last year, Amit Singhal followed up with a post aimed at helping webmasters focus upon the kinds of efforts they should take to avoid being targeted 通过 the 熊猫 update with a series of questions in 有关建设高质量网站的更多指导.

After reading the Wired interview, 和 finding out that the 熊猫 update was named after a Google engineer, I tried to identify whom that engineer might be, 和 wrote the post Searching Google for Big 熊猫 和 Finding Decision Trees。一世 identified Biswanath 熊猫 as a person of interest behind the upgrade based upon both his surname 和 a paper he co-wrote with Joshua S. Herbach, Sugato Basu, 和 Roberto J. Bayardo, titled 行星 :使用MapReduce大规模并行学习树组合 (pdf)。

该论文描述了所涉及的研究人员如何能够对与广告和登陆页面相关的功能执行一些相当复杂的分类过程,以预测其中哪些将获得更多的点击次数和更长的访问者停留时间。它还告诉我们所涉及的过程可以以其他方式使用,可能包括基于已知种子集中的功能对网页进行分类,以确定访问者倾向于在哪些页面上花费更多的时间。也可以看看, 预测赞助商搜索广告中的跳出率,其中提供了有关如何将与赞助广告和目标网页相关的不同功能进行检查以预测跳出率的更多详细信息。

我在这篇文章的标题末尾添加了一个问号,因为我确实不知道’不知道是否应该将其视为Google’s “Panda” patent. It doesn’共同作者的姓氏为“Panda,”尽管这可能是其中一位联合发明人的昵称。它没有’特别提到所涉及的过程可以用来“noticeably”当应用于对网页进行分类时,会影响Google使用的查询的11.8%。它没有’没有网站管理员应该问自己的关于自己网页的问题列表,例如Google’的搜索质量主管Amit Singhal在 更多指导 发布。

但是,当您阅读Matt Matts和Amit Singhal的《有线访谈》时,您会感觉到他们正在将自己认为质量不错的网站与那些’t,为此,他们正在查看这些页面上的特定功能以做出以下决定:

Wired.com :但是您如何算法实现呢?

割肉 :我认为您正在寻找可以重现您的直觉,工程师和用户相同体验的信号。每当我们查看被阻止最多的网站时,它的确与我们的直觉和经验相匹配,但是关键是,您也将对那些将为用户增加价值而不为用户增加价值的网站有所了解。我们实际上想出了一个分类器,说,好的,IRS或Wikipedia或《纽约时报》就在这边,低质量的网站就在这边。您真的可以看到数学上的原因。

该专利提出了一种检查已知页面的种子集上的特征,以及将这些特征与在未知集合上发现的特征进行比较的方法,以基于所检查的特征来确定那些页面的分类。

它还允许在分类过程进行时使用新功能的介绍。该专利是:

大型模型的特征选择
由Sameer Singh,Eldon S.Larsen,Jeremy Kubica,Andrew W.Moore发明
分配给Google
美国专利8,190,537
2012年5月29日授予
提交日期:2008年10月31日

抽象

公开了一种用于接收要添加到具有现有特征的模型的多个潜在特征的方法和系统。对于每个潜在特征,通过将模型中现有特征的值保持恒定来学习近似模型。

近似模型包括具有现有特征和至少潜在特征的模型。计算性能指标以评估近似模型的性能。性能度量用于基于预定标准对潜在特征进行排名。

Google提供了一份白皮书,其中包括专利所列的四位发明家中的三位,并涵盖了大致相似的领域,标题为 Logistic回归的并行大规模特征选择。本文通过告诉我们一些要解决的问题开始:

具有大量功能的高维数据集在现实世界的机器学习任务中越来越频繁地使用。诸如分类和垃圾邮件检测之类的文本挖掘问题依赖于描述特定单词组合出现情况的特征,因此潜在特征的数量可能增长到数十亿。

外卖

我一直在密切注意专利,该专利将描述Google背后的流程’s 熊猫 updates, 和 based upon the nature of those updates, my expectation was that I might not necessarily recognize it once I came across it. I didn’希望它提供有关确定网页质量时可能被视为肯定或否定的特定功能的详细信息。我没有’不能期望它提供有关网站管理员如果受到其影响可能会做什么的提示。

I did expect that a patent about the 熊猫 update would involve very large data sets, that it would include a 机器学习 approach that might determine positive features from known websites considered to be high quality, 和 that it could expand upon the features being used during the process of classifying a large set of pages. The process described in this patent does seem to fit those expectations.

The processes described in this patent are likely similar in many ways to the algorithm that classified documents under the 熊猫 updates 和 could be the actual framework for the updates.

无论如何’t provide any answers to ranking better under 熊猫, or any specific solutions to regaining rankings that might have been lost. It doesn’不要将注意力集中在可能会被调整以在可能受影响的页面的命运周围改变的任何一项功能或信号上,而是要考虑多种因素。

For pages that have been negatively impacted 通过 熊猫, the solution is more likely in removing or replacing low-quality content upon pages, 和 creating the kind of experience on the remaining pages that are pointed at 通过 the questions that Amit Singhal mentions in his 更多指导 发布。

至于蘑菇,我’m告诉我曾祖母曾经用锅里放的银币煮它们。如果在此过程中硬币变黑,则可能是蘑菇有毒的迹象。在研究这种方法时,我看到很多文章表明它确实没有’工作。我的家人很幸运。小心你’再消费,无论是否’关于蘑菇或算法更新的解决方案。 --

分享是关怀!

18个想法“The Google 熊猫 Patent?”

  1. “Be careful what you’再消费,无论是否’s about mushrooms or solutions to algorithmic updates.” –哇哇哈哈哈哈叹。爱那个兄弟。

  2. Pingback: The Google 熊猫 Patent? | Inbound.org
  3. The patent application is too early (2008) 和 is not associated with either of the 熊猫 engineers (Navneet 和 Biswanath) who have been put forth as candidates for the “Panda 突破”. I’ve been told that Matt 割肉 confirmed it was Navneet 熊猫’s work but I’我从来没有发现过这样的引用。

  4. Given the 熊猫 naming, I wonder if there’在Google上名为Penguin的任何人-

  5. 大卫,您好

    谢谢。想通了我从蘑菇开始的职位,最后我不得不把它们放回去。 --

  6. 嗨,迈克尔,

    当我今天早上阅读专利时,这些也是我的一些担忧。

    专利没有’它不会专门针对页面和自然搜索结果,但是肯定会提供一些方法,使人们可以使用其中描述的方法对网页进行分类。的 行星 预测跳出率 最初,论文专注于赞助搜索,并且能够使用具有非常大数据集的决策树分类系统。两者都提到其中描述的过程可以与Google的其他大数据集一起使用。

    我与他们共同发现的一件事是,这两篇论文都包含一个致谢部分,其中列出了许多Google人士为这些论文做出了贡献并提供了反馈。其中一位是安德鲁·摩尔(Andrew Moore),他是该专利列出的发明家之一,也是匹兹堡Google的工程主管。正如他在其站点上提供的本教程所看到的那样,他似乎也非常熟悉决策树:

    http://www.autonlab.org/tutorials/dtree18.pdf

    有线采访的措辞在许多方面都很有趣。例如:

    Amit Singhal: Well, we named it internally after an engineer, 和 his name is 熊猫. So internally we called a big 熊猫. He was one of the key guys. He basically came up with the 突破 a few months back that made it possible.

    Just what was that 突破? The approach in the first paper from Biswanath 熊猫 和 others, would make it possible to use a decision tree process on MapReduce for a very large data set, which is a significant 突破 in itself. Those papers were published in 2009, which is more than a few months before the 熊猫 update took place, but it’可能采用最初开发的用于预测赞助搜索跳出率的方法对有机搜索网页进行分类的方法可能被认为是一项突破。

    对于提出该方法背后使用的问题的人来说,’t necessarily have to be 熊猫 either:

    一位工程师提出了一系列严谨的问题,所有问题都源于此。 “您认为本网站具有权威性吗?如果在杂志上可以吗?这个网站上是否有过多的广告??

    但是这些问题可能会导致创建一组初始特征,像本专利中所述的那样,该系统可以使用。

    I have been keeping an eye open for a pending or granted patent from Google to surface which has one of the 熊猫’上的名字。如果这“breakthrough”是Google决定申请专利的内容,并将其纳入专利申请中,需要发布的专利申请必须在提出该方法的一年内提交,然后必须在14个月内发布申请日期。

    但它’可以在专利申请中进行另外的备案,以使专利只有在专利发布后才能发布’s granted. I’我们看到最快一年之内就能获得专利,而屈指可数的时间却超过了10年。

    It’也有可能“breakthrough”可能是,Google可能会将其视为商业秘密,而我们可能看不到专利。

    I have been doing some more research on the 熊猫s at Google. It’s possible that “Panda”是采访中提到的人的姓氏,但也可以是昵称,也可以是长名的缩写。我已经看到至少一位Google工程师的姓氏以p-a-n-d-a开头…

    我没有’t heard that Matt 割肉 had confirmed that Navneet 熊猫 was the 熊猫 being referred to, but I’我会更深入地挖掘。

  7. Pingback:是Google Evil吗? -页面39-网站管理员论坛
  8. Pingback:专利分析师:这可能是Google’s 熊猫 Patent | WebProNews
  9. 很棒的发现,尽管它可以告诉我们我们已经知道的一切。猜测要问他们实际上是否会在其中隐藏一些实际因素,实在是太多了。不过,在蘑菇话题上,问题在于,拥有银币理论的确凿数据的人永远都不会为它写博客(出于充分的理由)-

  10. 正如迈克尔·马丁内斯(Michael Martinez)所说,专利申请为时过早,并且没有’t cite 熊猫’s name, however I think the 熊猫 update is a collection of many algorithmic changes 和 this could be a small part of it. Even if it isn’t,Google对它进行了许多其他更改’的搜索算法,因此’了解他们认为值得申请专利的技术对于了解他们的想法很有帮助。

    为这篇有趣的文章加油,但是我’ve决定停止专门为Google建立网站,并研究其他产生流量的方法-

  11. 嗨,马格努斯,

    I actually really like running across patents from Google that confirm 和 reinforce things that we might have guessed or gleaned from Google blog posts, interviews, 和 our experiences. The patent introduces us to a framework for a system like 熊猫 which would have been possible without something like it in place.

    我的曾祖母很早就在博客或网络出现之前,范内瓦尔·布什(Vannevar Bush)撰写有关memex的时间之前,以及铸造硬币时实际上包含银的时间使用蘑菇测试。 --

  12. 嗨核桃

    Thank you. The 熊猫 update pretty much seems to be a process in 和 of itself rather than a collection of many algorithmic changes. Google has confirmed that they are presently running this 熊猫 process approximately once a month, 和 that the aim behind it wasn’t对网站进行惩罚,而是提高网站显示给搜索者的搜索结果的质量。

    而工程师“Panda”可能提供了“break through”帮助搜索质量团队启动了升级,’这并不意味着升级的工程师就是发起该过程的人之一,也未必一定会告诉我们Google何时开始对其进行操作。 Google已为其流程申请了专利,这些流程已花费了数年时间才能集成到其搜索引擎中。例如,2005年提交的一项专利首次提到了Google今天向我们展示的即时搜索结果。

    I’我不确定专门为Google建立网站是否是个好主意。它’建立可以吸引许多不同来源关注的网站要好得多,而且确实一直如此。

  13. Isn’t “penalizing a website” 和 “提高搜索结果质量” the same thing?

  14. 嗨,亚历克斯,

    他们不是’一样。对网站进行惩罚是一种可能针对手动操作或以自动方式针对特定网站采取的操作,因为’认为该网站以某种方式试图操纵Google’的搜索结果。改善搜索结果的质量旨在尝试根据相关性和质量的某种组合来对搜索结果中返回的页面进行排名。

  15. 那是有史以来最好的结局。我同意,很高兴看到专利能够加强我们已经相信的东西。在Google黑盒中添加一些发光的角。

  16. 嗨比安卡,

    谢谢。真实的故事。

    有时候专利描述了我’已经观察了一段时间,他们甚至为这种现象起了个名字。那 ’s even better.

  17. Pingback:Google页面布局更新

评论被关闭。