关于个性化PageRank和个性化锚文本得分

分享是关怀!

上周,我发表了一篇文章,介绍了Google一项新授予的专利, 在官方网投引擎中个性化锚文本得分 (美国专利7,260,573)于2004年5月提交。

在官方网投引擎策略会议上,我没有’没有机会深入研究专利。我将返回到它以及它被提交和授予的上下文。疯帽子对个性化锚文本得分中涉及的过程进行了很好的概述。

让’回顾一下历史,以及归档时的一些论文和想法。

Kaltix在个性化PageRank和页面排名中的作用

专利中列出的发明人是Taher Haveliwala,Glen Jeh和Sepandar Kamvar,当他们创立的隐形初创企业Kaltix于2003年末被官方网投引擎收购时,这三者都来到了Google。的 斯坦福个性化PageRank项目.

三人正在努力加快PageRank的计算速度,以便可以为每个官方网投者计算出个性化的PageRank。但是个性化的PageRank却没有’他们唯一的目标。他们还希望使用其他方法来增强个性化,并且该专利旨在利用指向页面的链接的锚定部分中文本的含义。

Gord Hotchkiss发布了 采访玛丽莎·梅耶(Marissa Mayer) 在2月的Search Engine Land上,他们讨论了Google个性化官方网投的各个方面。讨论的主题之一涉及使用Kaltix在Google中开发的技术’的个性化方法以及Google收购Kaltix的原因:

我们对它们感兴趣的原因是:一个是因为他们真正掌握了谷歌的所有功能’技术轻松;还有两个,因为我们认为他们处于如何在网络上进行个性化的最前沿,并且他们能够像官方网投者一样看待事物’的历史记录,他们过去的点击次数,他们过去的官方网投结果,与他们相关的网站,并最终构建PageRank的向量,可用于增强官方网投结果。

Marissa还指出,他们加快PageRank计算速度的方法对Google来说很有趣。参与斯坦福项目和Kaltix的人士在论文中可以找到该过程背后的一些想法:

那里 are a good number of other papers involving PageRank that are worth a look mentioned on the pages of the 斯坦福个性化PageRank项目,包括“主题敏感” PageRank。

与个性化锚文本得分相关的专利

我们还看到了Kaltix团队成员在授予Google的其他两项专利中的名字,我对此做了一些介绍。

我的其中第一篇文章是 斯坦福大学的新PageRank专利 (在大型有向图中对节点进行排名的方法),似乎包含了“Block Structure”我链接到上面的论文。在Personalized Anchor Score专利中有提及。

2006年4月,我写了一篇关于 谷歌’的自适应PageRank专利,它看着 自适应排名计算。它似乎着重于“PageRank计算的自适应方法”我也链接到上面。

尽管这些专利和论文集中在提高计算PageRank的速度和减少计算费用上,但该有关个性化锚文本的专利在个人化中增加了超文本分析的元素。它提到了个性化PageRank,还提到了“Block Structure”PageRank的计算。

在本专利中引用(并通过引用并入)另一个专利申请:“Web爬网程序系统中的锚文本索引。”它目前尚未公开,也无法从USPTO获得,但是它于2003年7月3日提交,并获得了美国专利申请序列号10 / 614,113。听起来它可能会提供一些有关如何将锚文本合并到相关性确定中以用于文档排名的想法。可能值得关注。

个性化锚文本得分专利中解决的问题

PageRank本身尝试使用官方网投引擎数据库中的文档到计算机全局链接结构“importance”这些文档的分数,有助于影响文档在官方网投结果中呈现给官方网投者的顺序。

但是PageRank会查看链接本身的存在,而忽略了那些链接经常(但并非总是)(如图像链接的情况)包含描述链接目标网页的文本。

该文本通常称为锚文本,该专利的作者告诉我们“与目标网页本身相比,它通常提供了更简洁和准确的描述,因此可用于确定目标网页与特定查询的相关性。”

它们还提供了以下有关Google在某个时间点工作方式的快照:

注意,截止2003年底,Google官方网投引擎根据官方网投结果中文档的PageRanks,查询词,官方网投结果中的文档来确定文档在一组官方网投结果中的位置,以及指向这些文档的链接的锚文本。

提出并试图由专利解决的问题是,是否可以设计出一种方法,该方法在以计算上可行的方式对页面进行排名时会注意官方网投者的具体个人偏好。专利发明人告诉我们,使用PageRank和引用的相关因素可能无法提供最佳结果,“attuned to a user’个人喜好。”

个性化锚文本成绩的创建和使用

Page 重要性 scores determined
锚文本索引
用于处理查询的多个数据库
用户信息数据库
Page 重要性 ranking
源页面上的限制
个性化锚文本得分

这是该专利中描述的许多过程的演练

确定页面重要性分数

对网页进行爬网,然后由内容索引器进行处理,以为出现在页面上的内容生成一组反转的内容索引条目。

A page 重要性 ranker computes the document’s page 重要性 score (possibly the document’s PageRank, which is based upon the PageRanks of the documents linking to that document). The page 重要性 score is stored in a database.

Other scoring systems could be used, such as scores from another link analysis or page 重要性 determination methodology.

锚文本索引

锚文本索引器从服务器接收到的每个页面中的链接(包括这些链接周围的文本)生成反向锚文本索引。

从页面中提取链接和文本,并进行记录以标识:

  • 源文件,
  • 与链接关联的目标文档;以及
  • 与链接关联的锚文本。

生成一个反向锚文本索引,其中锚文本术语映射到作为相应链接目标的文档。该索引可以与反向内容索引合并或以某种方式合并。

用于处理查询的多个数据库

提交查询后,该请求将发送到服务器端查询处理器以响应官方网投结果。该查询处理器检查多个数据库以识别满足官方网投查询的页面,并确定如何对那些官方网投结果进行排序。

这些数据库可能包括:

  • 倒排的内容索引,
  • The page 重要性 scores database, and;
  • 反向锚文本索引。

反向内容索引可以首先返回包含所使用的查询词的一组页面,并且查询处理器将相同的查询发送给反向锚文本索引,以找到满足该查询的另一组页面。一个文档可以出现在两组文档中。

The two sets are sent to page 重要性 scores database and ordered according to their page 重要性 scores and possibly their query dependent relevance scores.

用户信息数据库

官方网投引擎还可以具有用户信息数据库,该数据库包括用于官方网投者的个性化信息,通常称为用户个人资料。

在此系统下,用户还可以提交用户信息,从而形成实际用户配置文件或特定于每个用户的一组参数的形状,包括他们的背景和偏好。

Instead of a 用户数据base containing this information, it is also possible that the user information could be submitted to the server together with the search query, or submitted separately from the query.

一些或全部用户信息可以从先前的官方网投查询以及用户选择查看或使用的官方网投结果页面中得出。该个人信息可以存储在用户信息数据库中并与唯一的用户ID相关联。或者,它可以随每次官方网投一起接收,而不会被官方网投引擎保留用于后续官方网投。

Page 重要性 ranking

用户信息可用于为搜寻器返回的至少某些文档计算个性化页面重要性评分(​​个性化页面排名)。页面重要性排名器为每个页面生成页面重要性得分,并为其中某些页面生成用户特定的(个性化)页面重要性得分。

计算个性化页面重要性得分背后的概念是,页面重要性排名器提高了被认为与用户特定参数匹配的页面的页面重要性得分,进而提高了链接到那些文档的下游页面。

换句话说,页面重要性排名工具提高了URL匹配一个或多个用户特定参数的每个主机的文档的页面重要性得分。仅基于文档的URL,页面可以被视为匹配(或不匹配)用户特定的参数。

在此过程中,除了用户指定的参数和页面内容和/或指向该页面的链接的锚文本内容的匹配之外,URL所看到的还不止这些。

如果认为文档与用户简要表中的用户特定参数匹配(例如,如果文档的URL包括用户简要表中的任何URL关键字),则为该文档分配一个个性化页面重要性得分,该得分由用户个人资料。例如,用户配置文件可以为每个URL关键字指定要应用于匹配文档的特定页面重要性得分调整。

If a page matches more than one URL keyword, a larger page 重要性 score adjustment may be applied to the page. A user’s profile may specify the adjustment or assignment of personalized page 重要性 scores in other ways, too.

文档的个性化页面重要性得分仅涉及文档,用户’专门定义的参数,以及页面与其他页面相关的链接结构。它是许多其他排名因素中的一个信号,与官方网投者正在官方网投的特定查询无关。

但是,过去的官方网投结果和结果中的页面选择可能会间接影响文档’s personalized page 重要性 score because they can become part of a user profile (or user-defined parameters).

例:

如果用户提交了许多与标准能力倾向测试(SAT)相关的查询,则服务器可以更新其用户信息,并将该信息合并到用户特定的参数集中。

可能由于存储问题或计算费用而限制为其存储个性化页面重要性得分的文档的数量,并且可能在官方网投时进行评分。该专利描述了该方法的一些含义,’我不会讨论。

源页面上的限制

为页面列出的源页面可能限于满足有关官方网投查询的预定义要求的页面。此过程的一种版本可能要求页面链接的锚文本至少包含来自官方网投的一个查询词。或者,该锚文本包含官方网投查询的所有术语。

或者,可以包括所有源文档,而不管各个页面链接的锚文本是否包含任何查询词。作者告诉我们,最好将源文档限制为链接具有至少包含一个查询词的锚文本的那些文档 –这样可以确保仅将具有与官方网投查询相关的锚文本的源文档用于个性化官方网投结果中文档的顺序。

个性化锚文本得分

这里’s如何计算此分数:

1)从初始官方网投结果中提取源页面信息。

2)个性化锚文本(AT)分数生成器使用提交官方网投查询的用户的源页面信息和用户个人资料来为与每个相应文档相对应的源页面生成个性化链接分析(LA)分数(初始官方网投结果中的D1,D2等)。

3) The personalized LA score for a source page may be its personalized page 重要性 score (e.g., personalized PageRank), or the personalized LA score for a source document is a function of its personalized page 重要性 score.

4)通过累加器对源页面的个性化LA分数求和或以其他方式组合,从而在初始官方网投结果中为每个文档生成锚文本(AT)分数。

5)然后,通过将文档的AT得分和IR得分相结合,通过官方网投结果排名功能对结果进行排名,从而产生一组最终的个性化排名得分或值。

6)然后按照个性化文档排名对页面进行排序,以提供最终的,有序的官方网投结果集。

结论

快速外卖点–图片链接,并使用通用字词(例如“click here”可能无法从精心选择的锚文本中受益。

谷歌是否使用这种个性化的锚文本评分来重新排名结果?它’很难说。但是他们似乎对使个性化官方网投正常工作很感兴趣。

Kaltix和Google Personalization的一些帖子和新闻的时间表:

分享是关怀!

关于20条想法“关于个性化PageRank和个性化锚文本得分”

  1. 这是您在此处汇编的一些研究。我不’看不到有足够的计算能力对每个官方网投进行深度自定义官方网投。顺便说一下,一种算法可以完成所有工作。

    海滩烧

  2. 嗨Beachbum,

    这样做似乎确实在计算上昂贵。的 PageRank的原始专利 1998年提交的文件还讨论了为官方网投者创建个性化PageRank的问题,’关于是否可行的问题是:

    本发明的各种实现具有以下优点:收敛非常快(使用当前处理器几个小时),并且比建立全文索引便宜得多。这种速度允许为特定用户定制或个性化排名。例如,一个用户’主页和/或书签的初始重要性可能很高,并且/或者随机跳转返回首页的可能性很高。如此高的评价本质上向系统表明该人’的首页和/或书签确实包含重要的主题,应该对其进行高度排名。此过程实质上是训练系统识别与该人相关的页面’的利益。确定文档等级的本方法还可以用于增强文档的显示。特别地,文档中的每个链接可以用图标,文本或每个链接所指向的文档等级的其他指示符来注释。查看文档的任何人都可以轻松地看到文档中各个链接的相对重要性。

    它还讨论了索引页中锚文本的使用:

    另外,官方网投可以包括与页面反向链接相关联的锚文本。在这种情况下,此方法具有多个优点。首先,锚通常提供比网页本身更准确的网页描述。其次,可能存在无法由基于文本的官方网投引擎索引的图像,程序和其他对象的锚点。这也使得可以返回尚未实际爬网的网页。另外,引擎可以将官方网投词与其反向链接文档标题列表进行比较。因此,即使文档本身的文本可能与官方网投词不匹配,但如果其标题或反向链接锚文本与官方网投词匹配的文档引用了该文档,则该文档将被视为匹配项。除了或代替锚文本,还可以将反向链接锚文本附近的文本与官方网投词进行比较,以改善官方网投效果。

    它没有’提出了尝试个性化锚文本分析的想法,这是该专利带来的改进。

    我认为,斯坦福小组和Kaltix开发的用于加速PageRank计算的方法非常重要,首先要考虑的工作甚至是考虑使个性化PageRank都可以使用。我不’不知道我们是否在那里。

  3. 很好的分析,我必须同意您尚未出席的声明。对于每个级别的个性化详细信息,按算法对每个查询进行排名变得越来越困难。目前,我认为这将仅限于以下方面“绝对个性化”他们在专利中讨论的不是真正的个性化水平。

  4. 谢谢,TheMadHat。

    像大多数事物一样,您必须从某个地方开始,而该专利是几年前提交的。如果使用此过程,则只是迈向个性化的一步,但我怀疑并非他们正在尝试的唯一过程。

    一方面,Google已从记录官方网投历史记录转变为Web浏览历史记录。我认为他们’与那时相比,我对查询上下文的了解也要好一点。而且,据玛丽莎(Marissa)’上周在SES上的主题演讲,人们正在使用Google’的个性化功能–因此他们有机会向用户互动学习。有趣的是看到他们从这里去哪里。

  5. 谷歌的个性化技术负责人Sepandar Kamvar表示,谷歌希望为每个人计算PageRank。如何实现(或将要实现)仍然是一个秘密,而如何(或将要)将其纳入个性化也是如此。

    秘密的是,原始形式的个性化现已存在,并且默认情况下在每个Google帐户中都已启用。例如,我们知道,如果用户在Google Maps中指定了默认位置,那么对于相关官方网投,Google会根据该位置个性化结果。确定是否以类似方式使用用户为Google个性化主页,Google新闻,Google网上论坛等指定的首选项相对简单。

    也可能会看到SERP如何受到官方网投历史记录的影响。创建数百个单独的‘personas’并为每个官方网投历史记录构建预定的官方网投历史记录,可以使您深入了解Google消除官方网投字词的歧义。您甚至可以使用‘Picks For You’实验过程中的工具栏自定义按钮。

    但是,几乎没有SEO可以直接影响用户的Google帐户首选项或他们的官方网投历史。

    间接影响是另一回事,这是技术SEO在接下来的几个月中将开箱即用的想法。当然,在跳出框框进行思考之前,有必要先了解一下框的真正含义以及它由ðŸ™制成

  6. 嗨,迈克尔,

    有很多原因想要了解Google在展示官方网投结果,广告和地图以及其他结果时如何使用收集到的关于我们的数据。

    一是我们的官方网投和浏览历史就是我们的数据。

    在她的 基调 在上周的SES上,玛丽莎·梅耶(Marissa Mayer)提到有一天Google的个性化版本可能成为默认版本的可能性。将来肯定值得关注。

  7. 一个问题和几点。

    1 –如果Google将个性化排名作为其系统中更重要的部分,您如何看待这会影响没有身份的用户的官方网投‘user data’? Will the 用户数据 of other 谷歌 users influence the SERPs as a whole?

    2 –我认识的人与Google无关’服务栏Google 分析工具(分析)。我认为,个性化只会在人们更加渴望使用Google的技术行业中真正有效’s services.

    3 –我与您在一起是因为个性化目前不是主要因素,但这可能是Google尝试提高官方网投结果质量的最佳途径。

  8. 大卫,您好

    关于用户数据对那些不喜欢的用户的影响的好问题’没有太多的用户历史记录。它’即使我们不这样做,谷歌很可能已经将一些汇总的用户数据合并到我们看到的官方网投结果中’开启个性化Google服务。我们看到的有关某些通用官方网投结果的决定,拼写更正和查询细化的建议,网站链接中显示哪些链接的顶部结果–这些都是受用户数据影响的事物。

    谷歌确实提供了人们可能会使用的某些服务’这对于科技行业(例如Gmail)的人们来说是必然的,并且有机会获得个性化的主页。这些可能是人们尝试和使用个性化官方网投的门户。我可以看到这种情况。

    个性化是尝试提高官方网投结果质量的一种途径,但是还有其他途径,我认为Google正在探索除个性化之外的许多其他选择。

    当人们知道除了本地网络官方网投,Google Scholar或视频官方网投之类的广泛的网络官方网投之外,人们还希望将注意力集中在更狭窄的区域上,因此许多专门的垂直官方网投对于人们来说都是有意义的。

    他们正在处理其他功能,例如问题解答,翻译,新闻档案和图书官方网投,这些功能为我们的官方网投提供了可能的可能性,将我们的官方网投范围扩展到了我们自己的语言之外,甚至超出了我们在单个网页甚至是网页上可能找到的范围。网络。

  9. 感谢您的见解Bill。 谷歌首先要看的一件事就是让我保持登录状态。我来自英国,我唯一使用的Google服务是Google 分析工具(分析)。登录后,我登录google.com,但未登录.co.uk。

    今天又有一个问题浮现在我的脑海–如果您检查您的旧帖子– is:

    If 谷歌 can tell from my 用户数据 that i’深入官方网投引擎优化(SEO)和各种编程内容,这可能会如何影响我进行的官方网投‘Hopi Ear Candles’?还是不会有任何影响?

  10. 大卫,谢谢您提出有趣的问题。

    我没有’它涵盖了用于登录的Google专利申请,但这些申请仍然有效。 ðŸ™,

    奇怪的是,使用分析功能会将您登录到google.com,而不是google.co.uk。它’分析程序可能仅位于一个地理区域而不是多个区域,并且可能 ’t在使用主要官方网投时认识到区域偏好。在Google网上论坛的网站站长中心部分中可能要提到这一点。

    我最近写的一篇最近的论文是由Yahoo的某人合着的,专注于理解查询的上下文,并说个性化存在一些问题,’t be easily solved.

    他们使用的一个例子是一位计算机科学家,他经常通过个性化官方网投来官方网投与计算机相关的主题,因此决定在南太平洋的一个岛上进行一次探索,而在那里,他们决定使用术语官方网投来查找有关公共交通的信息。“java bus.”

    作为回应,他得到的答案只是涉及编程的页面,还有一些O’Reilly books –根本没有公交路线。

    如果您只看互联网营销和与计算机相关的内容,那可能会影响您的某些官方网投。但它’可能是’t ambiguous, like “hopi ear candles” won’t be affected.

    如果没有任何可以解释为该主题的用户数据,您最初可能会看到与查询无关的结果。当然,后续官方网投可能会受到诸如霍皮耳烛之类的治疗性健康治疗的官方网投影响。

  11. 谢谢。

    是–音乐推荐服务是最早尝试在网络上提供个性化服务的服务。由于局限在狭n的领域,与尝试为Web官方网投提供个性化结果这样的事情相比,它们的问题更少。有趣的是,它们在个性化方面提供了什么。

  12. Pingback:本周官方网投引擎优化-8/31/07-TheVanBlog
  13. 很抱歉在这场辩论/讨论中走得太晚,但我当然看到这种现象随着时间的流逝逐渐建立/证明是正确的。

  14. 真的很有趣。
    个性化官方网投的潜在回报是巨大的,因此构建成功的个性化官方网投引擎的障碍也很大。问题是,没有’t a ‘one size fits all’ formula…

  15. 嗨,乔治亚,

    I’我不确定我会说没有’t a “one size fits all”公式既是问题,又是挑战。我们’我们已经看到官方网投引擎尝试了许多不同的个性化方法,并且很可能在未来的几年中它们将进行个性化官方网投的实验。它’跟踪他们正在尝试的事情非常有趣。

评论被关闭。