谷歌’的自适应PageRank专利

分享是关怀!

新增2019年7月16日 昨天,搜索引擎圆桌会议上的一个故事告诉我们: 前Google工程师:Google Hasn’t自2006年以来使用的PageRank。我在2006年撰写了有关PageRank的新版本,而不是本文所涉及的自适应PageRank,而是文章中计算PageRank的另一种方法, PageRank更新.

张贴有关PageRank的Google搜索工程师乔纳森·唐(Jonathan Tang)在Hacker News上提供了有关PageRank背后的算法更改的更多信息。

这里说PageRank是Google的评论’的秘制酱油也是’t true – 谷歌 hasn’自2006年以来一直使用PageRank。&点击数据很重要,但我怀疑如果您公开这些数据,您还是不会’拥有有效的Google竞争对手。

Tang告诉了我们有关PageRank版本的更改的信息:

他们在2006年用一种算法替代了该算法,该算法可得出近似相似的结果,但计算速度明显更快。替换算法是’会在工具栏中进行报告,以及Google称其为PageRank(甚至具有相似的名称,因此Google’s claim isn’t在技术上不正确)。两种算法都是O(N log N),但是替换的log N因子常数小得多,因为它不需要迭代,直到算法收敛为止。那’随着网络从约1-10M页增长到150B +,这一点非常重要。

最后一个原因似乎非常适合此自适应PageRank。

谷歌’的自适应Pagerank专利

谷歌上周获得了涉及PageRank的新专利,该专利似乎集中于2003年4月以来的一篇论文, PageRank计算的自适应方法.

该论文很好地描述了他们针对该专利的目标–根据与网页无关的链接,为网页上的页面分配与查询无关的价值等级的更快方法–简而言之,就是自适应PageRank。这项工作没有’旨在更改排名或确定网页的相关性,但旨在使计算排名的计算元素更便宜,更快速。

专利中描述的方法和过程’t anything new, it’看看本文中的想法如何作为搜索引擎的一部分来实现,这很有趣。自适应PageRank专利很好地概述了搜索引擎的功能,涵盖了诸如爬网,过滤,索引,索引分区,缓存,映射链接和服务页面等主题。

然后,本文将深入研究他们设计的方法,以利用他们观察到的结果,即某些页面花费更少的时间,并且为重新生成最终的PageRank所需的PageRank计算也更少。正如作者在论文中指出的:

也就是说,许多页面会迅速收敛,而少数页面会花费更长的时间才能收敛。此外,收敛缓慢的页面通常是那些具有较高PageRank的页面。

该专利引用了许多其他论文和专利作为参考,我’如果您想了解有助于获得此自适应PageRank专利和论文的工作进展,请与以下文章链接。尽管该专利提到个性化,但没有’不能深入讨论该主题。它也没有’处理诸如历史数据,季节性,突发性,用户行为以及我们在其他领域中遇到的问题’我们已经将其包括在其他论文以及学术界和专利申请中的专利申请中。

自适应排名计算
发明人:Sepandar D. Kamvar,Taher Haveliwala和Gene H. Golub
Assigned to 谷歌 Inc.
美国专利7,028,029
2006年4月11日授予
归档:2004年8月23日

抽象

公开了一种系统和方法,其中针对一组链接文档迭代地求解针对一组文档等级值的排名函数,直到满足第一稳定性条件为止。满足这样的条件后,一些队伍将收敛。修改排名函数以考虑这些收敛的排名以减少排名函数’计算成本。然后解决修改的排序函数,直到满足第二稳定性条件。满足此条件后,更多的行列将收敛。排名功能再次被修改,并且该过程继续直至完成。

自适应PageRank专利还指出,它与 在大型有向图中对节点进行排名的方法,于2005年2月10日出版,由Sepandar D. Kamvar,Taher Haveliwala,Glen Jeh和Gene H. Golub发明

自适应PageRank专利中引用的美国专利和专利申请:

上次更新时间为2019年7月16日。

其他引用的参考文献:

分享是关怀!

关于2个想法“Google’的自适应PageRank专利”

  1. pingback的:您知道您何时是Bill Slawski的粉丝。

评论被关闭。