谷歌’s Second Most Important Algorithm? Before 谷歌’熊猫,有菲尔

分享是关怀!

他们将项目命名为Phil,因为它听起来很友好。 (对于需要首字母缩写词的人来说,他们很方便:概率分层推理学习者。)对于Google工程师Phil来说,这是个坏消息,他一直在收到有关该系统的电子邮件。他恳求哈里克(Harik)改名,但菲尔(Phil)确实如此。

史蒂文·利维, In The Plex: How 谷歌 Thinks, Works, and Shapes Our Lives.

How does 谷歌 decide which Adsense advertisements to show on which Web pages? How do they avoid showing 不合适的广告 在那些内容页面上?他们用来支持这些决策的文档分类系统如何工作,其使用范围已扩展到Google以外的其他地方’的广告系统?

专利分类对象(例如文档和/或群集)的界面截图,涉及分类法和从此类分类中得出的数据结构,该屏幕截图显示了某人可能如何发现网站可能包含在哪些类别中。

史蒂文·利维’s 在丛中 描述了Google的早期’的Adsense计划,网络发布者可以注册以在其页面上显示上下文相关的广告块,并且如果有人点击显示的广告,则将获得一定比例的广告费。该程序的名称Adsense源自一家名为 应用语义学 which 谷歌 acquired around the time that they were putting the finishing touches on this content-based advertising system.

根据Levy的说法,应用语义学的收购时机和Adsense名称的使用使许多人相信,由应用语义学开发的广告技术是Adsense计划的核心,而实际上,为系统提供动力的技术是在-房子,被称为“PHIL.”

注意,我’m很难完成 在丛中。我不断被提及的人,算法和事件所困扰,这些我想了解更多。

书中提到PHIL的内容使我更深入地了解了我是否可以找到有关PHIL的更多信息。我遇到了原始的临时专利申请“用于概率层次推理学习者的方法和设备,”申请号为60 / 416,144的申请已于2002年10月3日提交,并于2004年7月19日到期,但尚未公开。我以前从没看过它,我怀疑在Google或专利局之外的人很少,尽管我认识到我阅读的内容很多。

飞利浦是由Georges Harik和Noam Shazeer发明的,有关如何将与之相关的词语和概念进行聚类和分类的许多想法可以在以下专利中找到,这些专利被列为共同发明人:

以下专利申请描述了如何使用Phil聚类系统对许多不同类型的文档进行分类:

根据分类和从此类分类得出的数据结构对对象(例如文档和/或群集)进行分类

由David Gehrking,Ching Law和Andrew Maxwell发明
美国专利申请20060242147
2006年10月26日发布
提交日期:2005年4月22日

抽象

A 网站 may be automatically categorized 通过 :

  • Accepting 网站 information,
  • Determining a set of scored clusters (e.g., semantic, term co-occurrence, etc.) for the 网站 using the 网站 information, and
  • 使用至少一组群集中的至少一个来确定预定义分类法的至少一个类别(例如,垂直类别)。

语义群集(例如,术语共现群集)可以通过以下方式自动与预定义分类法的一个或多个类别(例如,垂直类别)相关联:

  • 接受语义簇,
  • 使用公认的集群识别一组一个或多个得分概念,
  • 使用一个或多个评分概念中的至少一些来标识一组一个或多个类别,以及
  • 将一个或多个类别中的至少一些与语义集群相关联。

A property (e.g., a 网站) may be associated with one or more categories (e.g., vertical categories) of a predefined taxonomy 通过 :

  • 接受有关该物业的信息,
  • 使用所接受的属性信息来标识一组一个或多个带分数的语义簇(例如,术语共现簇),
  • 使用一个或多个得分语义簇中的至少一些来识别一组一个或多个类别(例如,垂直类别),以及
  • 将一个或多个类别中的至少一些与该属性相关联。

本发明涉及组织信息。特别地,本发明涉及对与分类法有关的术语,短语,文档和/或术语共现聚类进行分类,以及使用这种分类的文档和/或聚类。

Some of the capabilities behind 飞利浦 were pinpointed in one of the slides from a presentation 通过 谷歌’s Ruchira S. Datta,在 第十届湾区离散数学日, 飞利浦: The Probabilistic Hierarchical Inferential Learner, April 9th, 2005

我们可以和菲尔一起做什么?

  • 我们可以比较查询,文档和广告中出现的概念。
  • 我们可以比较两个文档之间的概念,并为聚类相似的文档形成距离度量。
  • 对于含义不明确的查询,我们可以按其可能性与相应含义相对应地显示结果。
  • 我们可以将这些概念用作特征以对文本进行分类。
  • 我们可以根据它们引起的概念来猜测单词是否彼此拼写错误。

临时专利于2003年9月以稍微修改的语言重新提交,并以 基于相关词簇的文档表征方法和装置。主要变化之一是删除了对系统的引用,因为“PHIL”.

我在1月份开始阅读之前写过关于该专利的文章 在丛中 and before I knew of the 谷歌 Code name 飞利浦, in the post 为什么搜索引擎可能会聚类概念来改善搜索结果。当时我还没有’t意识到,不仅Google出于其Adsense计划的目的使用专利中描述的分类类型对网页进行分类,而且已经存在了很多年。

结论

我们知道,PHIL在Google如何对网页进行分类以决定通过Adsense在网页上展示哪些广告方面起着重要而不可或缺的作用。某些分类提供了示例 分类对象 专利包括“sensitive”像我在上一篇文章中写的主题 搜索引擎如何将网页分类为敏感网页.

通过学习页面上共同出现的术语和概念并将相似页面聚类在一起,PHIL(概率层次推理学习器)将页面分为不同类别。谷歌’基于短语的索引编制还着重于识别页面上的良好短语和术语的共现,但使用不同的系统,并将更多精力放在对网页进行排名上。基于短语的索引已获得了两代专利,第二组专注于在大规模索引系统中实施该系统,因此’它可能在网络搜索方面起着与PHIL类似的作用。

飞利浦可能将页面和站点放在其中的这种分类法可以与其他类型的文档分类系统结合使用,甚至可能与诸如Panda这样的分类系统结合使用,从而可以将覆盖类似主题的站点彼此进行比较。 。

分享是关怀!

关于25条想法“Google’s Second Most Important Algorithm? Before 谷歌’熊猫,有菲尔”

  1. 好吧,我只能说是“谢天谢地,PHIL”因为Adsense是唯一在我的网站上插入针对性广告的广告程序。

    我以前尝试过其他产品,但到目前为止在转换方面还没有任何匹配的产品。

    标记

  2. 哇那’一些繁重的侦探工作。

    您 mentioned
    “I came across the original provisional patent filing “用于概率层次推理学习者的方法和设备,” application number 60/416,144, which was filed on October 3, 2002 and expired on July 19th, 2004 without having been published.”

    您如何找到从未公开的临时专利?大概不是通过正常的PTO专利检索过程!

    – Ted

  3. 鲁奇拉·达塔(Ruchira Datta)是位女士。巧合的是,她在加州理工学院的时间与亚当·韦斯曼(Adam Weissman)和吉尔·埃尔巴兹(Gil Elbaz)(创建了应用语义学)重叠。

  4. key比尔– that’s dedication!

    在2005年第十届第十届年度海湾地区离散数学日提到的PHIL的功能很有趣。这让我开始考虑其他文档分类系统的集成。我个人’d猜测Panda之前可能已经集成了基于目标的目标系统,Dart Doubleclick的分类和归因模型(2005年浮动,由Google 2008收购)。

    然后再– I was under the impression that some of the TangoZebra functionality would have been integrated into 您Tube 通过 now…

    汤姆

  5. 谷歌adsense是做广告和赚钱的非常有效的方法,但是问题是最近他们增加了对亚洲博客作者地址的限制。我曾尝试过几次批准我的帐户,但我经常不这样做。

    他们应遵循每一项的平等权利。

  6. I’如果您的网站上有Adsense,很容易看到PHIL的效果如何。只需更改页面上的标题标签,h1标签和一些术语,然后刷新,您就应该在Adsense空间中获得针对您的新主题的新广告’ve given the page.

    我觉得“Website”Google关键字工具上的复选框也基于Phil。输入任何URL可以很好地了解Google认为该页面的含义。非常有价值的见解。

  7. I’我不喜欢Adsense,关键字工具的命中和失败取决于主题。对于英国的其他6000万用户如何在Google搜索栏中搜索网站,我也有所抱怨–这是难以置信的!我们该如何应对?

  8. 嗨,马克,

    I’我听说有些人对AdSense非常满意,而另一些人对此感到不满。在某种程度上,我想这取决于您网站的访问者是否对访问您网页上显示的广告感兴趣,而不论它们之间的相关性如何。

  9. 嗨,特德,

    我在USTPO中查询了专利申请号 专利申请信息检索,因为它过期后我一直可以访问它。它从未在常规专利程序中作为未决专利申请公开,但由于过期而可以通过数据库使用。虽然它’是可公开访问的文档,’不是一个容易获得的。

  10. 嗨,杰里米,

    我提到Ruchira S. Datta的原因很简单,因为我链接到她关于该主题的演讲,’她不知道她在PHIL的发展中可能扮演什么角色。乔治·哈里克(Georges Harik)和诺姆·沙泽尔(Noam M. Shazeer)似乎为此赢得了大多数赞誉’Google的其他人也可能也发挥了作用。

  11. 嗨,柯特,

    Thanks for the additional information. 您 have me wondering if there were some interesting discussions going on at Caltech back then about semantic search.

  12. 你好汤姆,

    谢谢。一世’我仍然想知道,自从PHIL在Adsense中使用以来,应用语义技术可能已被整合到Google的功能中,而亚当·韦斯曼(Adam Weissman)和吉尔·埃尔巴兹(Gil Elbaz)的两项Google专利更多地侧重于网络搜索,而不是赞助搜索。我可以’t say that I’我对Doubleclick随Google附带的技术进行了深入研究。

  13. 嗨,SF,

    I’d希望看到有人对AdSense(以及广告与其所显示的内容的相关性)以及关键字工具进行大规模研究。我不’不知道您在Google工具栏上的搜索问题是什么,所以我可以’不能真的回应您对此的评论。

  14. @标记

    我同意。 Adsense非常有效,尤其是在SEM广告系列中。

  15. 我相信PHIL和AdSense计划与SEO是分开的。它有效地(大部分情况下)基于内容和“关系维度”页面上的关键字,但我不知道’认为它对SEO没有任何影响。

    回复:AdSense计划– once you’重新禁止后,如果没有某种新域名甚至邮寄地址,就很难重新进入。

  16. 最初的Applied Semantics专利是最不严谨的论文之一,也是我在该网站上通过帖子阅读的最合适的论文之一。谢谢–专利不是最容易理解的解密方法,因此感谢您提供的宝贵意见。

  17. 嗨文斯,

    我们要做的一件事’谷歌代表经常听到的是,搜索的有机方面和付费方面是彼此分开的。但这不’意思是说,在搜索的一侧传播的某些想法可能也不会影响另一侧。

    例如,当Google研究人员提出一个决策树流程时,该流程可以使用Google处理非常大的数据集’s MapReduce,如本文所述 PLANET:使用MapReduce大规模并行学习树组合,他们试验了该过程在预测Adwords广告和目标网页的跳出率方面可能有多有效。他们在论文中指出,该实验的成功表明他们开发的过程可以与其他非常大的数据集一起使用,例如与自然搜索有关的数据集。那里’程序可能落后于Google的可能性很大’s Panda updates.

    I’我不坚持在Google中使用PHIL的某些方面’的自然结果,但作为文档分类系统,它要特别注意和注意页面上用来对这些页面进行分类的词语和概念,而Google肯定已经使用了多年,因此它值得所有对Google工作方式感兴趣的人的注意对页面进行分类。另外请注意,该专利中还提到了来自Applied Semantics的Google研究人员的专利,并且’他们可能会对PHIL系统的其他改进和发展产生一些影响。查看他们在Google期间开发的专利,其中一些专利更侧重于自然搜索,而不是付费搜索。

  18. 嗨,JC,

    您’重新欢迎。应用语义学论文和专利申请非常有趣,其重点更多地放在理解网页上的概念上,而不是在文档中匹配关键字。对于搜索引擎或SEO感兴趣的人,它们绝对值得一读。

  19. 到目前为止,我对自己博客上的adsense展示位置印象深刻。根据用户的位置和展示位置周围的关键字(图片的备用标题,元标记…) I’d说75%的广告确实具有相关性。
    作为发布者,非常重要的一点是,优化页面/文章以在您的网站上获得最相关的广告。我还要补充一点,我希望限制广告的数量,因为Google会首先展示出价最高的广告(这为我带来了更高的每次点击收入)。

  20. 嗨,埃里克,

    I’尝试了adsense,有时候我确实看到非常相关的广告,有时又想知道如何选择某些广告,因为它们只是’t good fits.

    我同意您的观点,即限制显示的广告数量,以便’更有可能显示出价更高的广告和更相关的广告。

评论被关闭。