PageRank,自助服务链接和域信任

分享是关怀!

Microsoft于2005年提交的一项专利申请以及上周发布的一项新专利探讨了PageRank的概念以及他们所谓的使用PageRank的漏洞,并提出了几种解决方案。

这里’是问题所在,正如他们所说:

增加网页v的PageRank分数的一种方法是使许多其他页面链接到该网页。这是网页能够认可其他网页的基本思想所固有的,这是PageRank的核心。如果链接到网页v的所有页面的PageRank得分都较低,则每个页面的贡献将很小。

但是,由于保证每个页面的最小PageRank分数为dl | V |,因此来自许多此类低质量页面的链接仍然可以贡献可观的总数。

可能并不完全清楚为什么’是个问题。他们继续解释:

实际上,PageRank的此漏洞已被包含大量页面的网站所利用,这些页面的唯一目的是“endorse” a main 首页 page.

这个“home” page does not have to be on the 同一台服务器, but can be a 首页 page (or any page) of some other server. Typically, these endorsing pages contain a link to the page that is to be 赞同d, and another link to another endorsing page. All the endorsing pages are created on the fly.

网络搜寻器一旦偶然发现了任何背书页面,便会继续下载更多背书页面(因为背书页面链接到其他背书页面的事实),从而积累了大量背书页面。

这个large number of endorsing pages, all of them endorsing a single page, artificially inflates the PageRank score of the page that is being 赞同d.

专利申请提供了一些潜在的解决方案。第一种是在域或IP地址的所有索引页面中分配最小PageRank值,而不是在创建新页面时添加更多PageRank。第二个是基于托管它的Web服务器分配基于域的信任等级。

如果实施了这样的系统,则可能意味着托管在您网站所在的服务器上的域数量可能会影响您的排名以及网页链接的价值。

这里 are the 专利申请s:

基于结构上相关的信息对文档进行排名的系统和方法 (20050060297)
2005年3月17日发布;申请日期:2003年9月16日

抽象

提供了一种系统和方法,用于基于超链接信息以对裙带关系的抵抗性来对网页进行排名。在一个实施例中,提供了一种Web搜索服务,用于返回质量查询结果。解决了现有排名算法(例如PageRank)对于虚增网页的脆弱性,这些网页仅是为了扩大目标页面的得分而人工生成的。直观上,我们认识到,通过随机跳转到达具有许多页面的Web服务器上的特定页面的可能性要小于到达具有很少页面的Web服务器上的特定页面的可能性,这意味着这种影响通过链接或认可另一页来缩小另一页上的页面。因此,在各种非限制性实施例中,为每个Web服务器而不是每个Web页面分配了保证的最低分数。然后,可以将分配给服务器的最低分数分配给该Web服务器上的所有页面。

基于域的垃圾邮件防护等级 (20070067282)
2007年3月22日发布;申请日期:2005年9月20日

抽象

一种基于域的防垃圾邮件排名体系结构,该体系结构基于托管域的Web服务器和链接到该域的一组其他域来计算对域的信任度。页面排名是根据每个域中有多少信任以及链接到哪个页面来计算的。通过为网络位置的每个IP地址分配统一的重要性,然后为这些IP地址上托管的域分配信任值,从而以防垃圾邮件的方式对Web文档进行排名。然后,基于域图,本发明构建域等级,该域等级是域的权威性的估计。然后使用域等级为每个文档分配最小等级。

分享是关怀!

关于17的想法“PageRank,自助服务链接和域信任”

  1. 嗨,迈克尔,

    我认为,搜索引擎这些天可能更擅长通过查看页面本身来了解页面的质量,并且可能会降低pagerank的作用。您是否认为网站外部重要性的任何引用模型仍有很多优点?

  2. 他们提出的解决方案都不会极大地阻止甚至阻止PageRank的操作。

    搜索引擎越早放弃PageRank的整个概念,搜索结果的质量就越快—PageRank对他们有什么真正的影响—将大大改善。

    但是,他们甚至应该更快地放弃传递链接锚文本的做法,而仅根据页面内容来衡量相关性。与几年前相比,它们现在能够更好地区分隐藏文本和可见文本。

  3. 恕我直言,引用模型仍然有其优点,并且会不断以新的方式进行开发和思考! 谷歌绝对是最重视这一点的人,我认为有可能看到他们的发展方向…

    谷歌的作者身份信任’AgentRank的专利申请将能够为整个链接的价值以及确切地由谁进行引用的整个问题做出另一个贡献,并且很容易混入PageRank分数中。

    另外,如果我没记错的话,Google正在使用DNS做某事,这意味着它对他们检查IP的效率要高得多’并寻找任何可疑的网络,就像摘要2中所述。

    有两种可能性,即完全推测,但我认为它表明了不断努力尝试发展引文模型的思想及其长期前景。

  4. Good examples. I think that there is still value in looking at factors that are 外部 to a page to determine something about its quality.

    It is possible that 谷歌 is looking for suspicious networks based upon IP.

    Agent Rank是一种有趣的方法,但是我认为它可能需要开发和广泛采用数字签名类型系统才能使其最有效地工作。 (专利申请, 摘要概述)虽然可以看到其中的值。

  5. 这里的基本概念是区分“internal” links, which aren’对排名有价值,来自“external”链接。的概念“internal”可以超越“same domain” to at least “same IP address” and “same server”.

    一个想去“same ownership”; if the same person or organization controls multiple sites, links between them are 内部 links. We’正在致力于技术上做到这一点。

  6. 嗨,约翰,

    解决方案可能最好集中于寻找不符合要求的重要性度量’不能将最大的价值放在链接上,而是要关注其他质量指标’容易受到攻击。

  7. 有趣的比尔(是的,我叫PageRank痴迷:D)

    谷歌已经通过要求一个最低PageRank阈值来获得索引,该阈值高于最小PageRank分数,从而解决了这个问题。一个100万个页面站点,即使有相当数量的入站PageRank,也会将该PageRank分成几百万个,因此该站点的很大一部分不会’t达到最小PageRank阈值。为了助您一臂之力,Google更加积极地评估和贬低链接,以使PageRanks操纵链接(页脚链接,博客评论垃圾邮件,论坛链接注入,过多的对等链接,付费链接,免费目录链接,交叉链接等)贬值。正如Matt Mattts在西雅图SMX大会上所说的那样,这两种机制确保了大型垃圾邮件站点将得到补充:PageRank X网站在Google中只能包含Y个页面’s index.

  8. 附言是的,我知道PageRank归因于网页,而不是网站ðŸ™,当我说PageRank X网站时,它是一个网站的简写形式,该网站总共有X个入站PageRank,通过将所有入站PageRanks汇总为域。

  9. I’d like to know what “self-serving links”如标题中所述,但帖子正文中未提及。
    问候。

  10. 嗨,查尔斯,

    我在链接到的第一个专利申请中很早就找到了该短语:

    这个invention relates to the ranking of documents based upon structurally interrelated information. More particularly, this invention relates to the ranking of Web pages based upon hyperlink information in a manner that is resistant to nepotistic, or 自我服务,链接

    换句话说,似乎只是为了增加站点页面的链接流行度(或页面排名)得分而似乎已经创建的链接(在同一域或同一IP地址或服务器上)“self serving” links.

    In their introduction of the problem that their 专利申请 is supposed to solve, they go into more detail on what they consider 自我服务 links:

    [0014]因此,虽然基本思想是合理的,但是PageRank的结果会受到裙带关系的干扰,即,可以出于自我认可和推广目的创建页面家族,而无需考虑其真正的优点。背书人或背书人。虽然已知关于PageRank分数存在链接垃圾邮件的问题,但是解决方案仍在本领域中。

    [0015]因此,需要一种改进的基于查询的独立链接的排名算法。更具体地,期望显着降低裙带关系的影响的改进的排名系统和方法。此外,需要减少链接垃圾邮件的改进的排名系统和方法。’鼓励创建一系列自我认可的网页,目的是人为地夸大与目标网页认可者相关的PageRank分数。

  11. 那里’这里有一些很好的见解…和矛盾的观点。页面排名重要吗?我曾经在一家seo公司工作,我想肯定这是您应该与其他因素一起关注的事情。仍然看到不同方面的人很有趣。

  12. 嗨,帕特,

    好问题。此时的PageRank仍然很重要,但是我们不得不怀疑它将来可能扮演什么角色。目前,Google拥有使用斯坦福大学PageRank的独家许可–PageRank上的专利的持有人。但是该许可证将在2011年到期。

    这是否意味着Bing可能会在明年某个时候开始使用PageRank?如果这样做的话,它的PageRank可能会与10年前最初撰写的页面有所不同。 Microsoft提供了许多专利文件,它们描述了可以使用PageRank的其他方式,例如这种方式。

  13. 嗨,雷,

    谷歌’一段时间以来一直在关注社交信号,并且在对网页进行排名时似乎更加关注用户行为数据。

    PageRank本身可能还会存在几年,但是Google和其他搜索引擎正在考虑的其他信号的数量正在增长。新的+1功能可能会在将来影响排名,但是我们必须问这样一个信号被使用它的人操纵和玩弄的可能性有多大?

评论被关闭。