Web衰减和链接断开可能对您的网站不利

分享是关怀!

什么是Web衰减,它如何破坏链接并损坏您的网站?

How harmful are broken links to search engine rankings? Or pages filled with outdated information? Can internal redirects on a site also hurt rankings? What about the redirects used on 停放 domains?

上周在美国专利商标局(USPTO)上发布了一项新的专利申请,并已转让给IBM, 评估网页衰减的方法和设备, explores the topics of broken links, web decay, soft 404 error messages, redirects on 停放 pages, and automated ways for search engines to look at these factors while ranking pages. I’在此将探究一些专利申请,并提供一些关于避免衰减损害网站排名的方法的想法。

专利申请的作者包括:

官方网投引擎为什么要研究网络衰减?

官方网投引擎希望提供有用,及时的信息,并将结果返回给官方网投者。他们为此付出的努力之一就是网络发展迅速,因此他们必须努力跟上新页面的发展。但是,同样重要的是,最近的研究表明,许多网页’持续时间长,网也表现出快速衰减。

对于页面创建者来说,保持链接最新状态并避免Web衰减是否重要?

从提供对访问者友好的可用站点的角度来看,确实可以,但是断开的链接也可能会损害排名。该专利申请指出了官方网投引擎识别和使用链接衰减的概念以减少表现出明显的链接衰减的页面的排名的许多方法。

该文档指出,在单个页面,页面集合甚至整个Web邻域上都可以看到明显的衰减,从而使它们作为信息资源的效率降低。这些社区使官方网投者感到沮丧,而不是为其提供价值。这为官方网投引擎远离这些地区提供了强大的动力。

避免死亡和网络腐烂

知觉在官方网投者可能认为无关的信息中起着重要作用。 Web的即时性和灵活性使人们期望内容是最新的。发明人告诉我们,在图书馆中,没有人期望每本书都是最新的。不过,大多数人都希望书籍在出版后不会改变,而且很容易在书籍中找到出版日期。他们注意到网络是不同的:

While there have been substantial efforts in mapping and understanding the growth of the web, there have been fewer investigations of its death and decay. Determining whether a URL is 死 or alive is quite easy, at least in the first approximation, and it is known that web pages disappear at a rate of 0.25-0.5%/week. However, determining whether a web page has been abandoned is much more difficult.

无论是否使用本专利中描述的方法,’为人们提供一些线索,表明站点的页面正在积极维护和更新,这不是一个坏主意。以下是一些未在专利申请中列出的想法:

  • 采用“last updated”页面底部的声明
  • 发布文章,博客文章或附带日期的其他信息,并包括指向您网站上访问量高的页面上的链接。例如,如果您的站点上有博客,则使用RSS feed来显示站点其他页面上的帖子标题。文章也可以这样做。
  • Update the copyright notice date in the footers of your page. 那里’在通知中包含一定范围的年份是没有问题的,例如“© 1996-2006.”
  • 定期使用链接检查器,并确保站点内的内部链接和外部链接都没有’t broken.
  • 采用a tool like Xenu Link侦探 检查这些链接,并查看内部和外部重定向。
    • 如果您在网站上页面的URL更改时使用重定向,而不是在页面上更改链接本身,请继续并更改链接。
    • 如果您看到站点外部的链接被重定向(Xenu可以告诉您),请看一下重定向将您带到何处。如果您指向的页面的新位置有效,请将链接更改为该新目标。如果新页面是错误消息,或者不是您最初链接的内容,请进行适当的更改,例如删除链接或查找信息的新来源。
  • 手动检查站点外部链接的目标页面,以查看您最初链接的页面是否已以某种方式更改。当您从站点提供外部链接时,使用链接提供足够的信息会很有帮助,这样您就可以记住为什么最初链接到页面的原因。这样做的好处是,该页面的潜在访问者可以更好地了解您为什么首先链接到该页面,并且可以依靠他们在您网站上找到的链接将他们引至他们所说的地方。
  • 如果您销售过时的,旧的,停产的或翻新的产品,请确保清楚它们是旧的,以使访问者和官方网投引擎了解这些产品是去年的。’的模型,或前一年’s,甚至更老。
  • 不断地编写内容,以便您的页面在经过一段时间后才有价值。例如,基于事件的新闻简报可以简单地是事件,位置,日期和链接的列表。相反,请包含有关事件的信息,例如事件的历史记录以及今年为何如此出色的原因。考虑一下该网页在未来一年还是两年或三年内仍然对访问者有价值,并使用实现目标的文字和文字作为目标。除了链接到专门为该事件创建的页面之外,它还包括可能更永恒的链接,例如举办该事件的组织。如果到特定于事件的页面的链接已过期,甚至是断开的链接,但是组织仍然存在,请删除事件页面链接并保留组织的链接,尤其是在该页面仍为官方网投者提供价值的情况下。
  • 最后的建议可以与博客文章和文章中的链接同样有效。如果您写有关某个公司或组织以及他们正在做的事情的信息,请链接到他们的主页,并链接到他们网站上描述他们正在做的事情的页面。第二个链接比第一个链接更有可能成为损坏的链接,并且您可以通过以下方式编写该链接:’大大损害您的博客文章或文章。

您可能还可以做其他事情,以防止官方网投引擎和访问者认为您的页面过时。其中一些需要持续维护,而另一些则需要以不’t become stale. 该专利文件中最重要的陈述之一是,基于衰减的排名调整要比依赖于诸如PageRank之类的排名容易确定。 检查链接并修复它们比为您的站点寻找链接容易得多。

专利申请中描述的方法的使用

我在上一节中提到了手动检查链接。该专利中描述的方法的预期用途之一可以帮助人们检查链接是否断开。这里’文档提供的用途和说明的列表:

网站管理员和本体医生工具:

有许多工具可用来帮助网站管理员和本体专家跟踪其站点上断开的链接;但是,对于维护资源的网站,没有工具可以帮助您了解链接到的资源是否被破坏。关于Yahoo!的观察叶节点表明,此类工具可能会提供自动或半自动方法来解决衰减问题。

排行:

Web衰减量度未用于排名,但是用户通常会抱怨官方网投结果指向的页面不存在(死页面)或不存在但未引用有效的当前信息(死页面)。将衰减量度纳入等级计算将缓解此问题。此外,网络官方网投引擎可以使用soft-404检测算法从其语料库中删除soft-404页面。请注意,由于大多数官方网投引擎对锚文本的重视程度很高,因此在其新内容下编制索引的soft-404页面仍然存在问题,而将锚文本添加到soft-404页面的可能性可能很大。

爬行:

衰减得分可用于指导爬网过程和爬网频率,特别是对于主题敏感的爬网[1。例如,有人可以辩称,经常爬网已经充分腐烂的一部分网络是不值得的;从所描述的实验中可以看出,很少有页面中有有效的最后修改日期。用于计算衰减分数的动态随机游走算法可能太昂贵,无法在爬网时协助此决策,但发布全局爬网后,可以与PageRank相同的成本计算网络上所有页面的衰减分数。严重衰减的页面可能很少被爬网。

网络社会学和经济学:

测量主题的网页衰减分数可以使您对该主题的“趋势”有所了解。

注意 –第一个描述包括对Yahoo Directory的批评,该批评将在本文档的后面部分进行扩展。作者说,目录在删除断开的链接方面做得非常好,在识别页面仍然有效但目的已经改变或过时的链接方面做得很糟糕。现在,至少有两个发明人与Yahoo合作,看看这是否有很大变化可能很有趣。

网络衰减过程如何工作?

那里 are four parts:

  • 日期阈值
  • 话题阈值
  • 链接阈值;以及
  • 根据断开的链接和页面之间的距离分配衰减分数。

日期阈值

从页面中提取有关页面年龄的信息,或者“last-modified”使用有关页面的信息。因此,页面上的日期,版权声明等内容可能很重要。如果页面早于某个特定日期阈值,则认为该页面是当前页面。

话题阈值

他们提供的示例之一很好地说明了这一点。一页描述了用于“非历史原因”例如将其视为新产品来销售。这可能提供一个线索,表明它不是最新的。同样,举个例子,当前世界大赛冠军被列为纽约洋基队的页面也可能被视为过时。

链接阈值

如果页面上一定比例的链接是断开的链接–该页面不是当前页面。

这是值得考虑的部分。一世 ’ll use the words from the document here to show some of the issues involved in difficulties with identifying some 死 links.

This is also the part of the document that includes the critique of the Yahoo Directory, and interesting insight about 停放 pages pointing to a different domain (i.e., Disney owns http://www.mickeymouse.com/ which is a 停放 domain and has a redirect to a page on the Disney domain – audio alert warning – the Disney starts playing music when you visit, so only do so when that may not be an issue). While the Disney example is a reasonable use of a 停放 domain, the web decay patent identifies another use – when someone purchases a 死 domain and uses a redirect upon it to “profit from the prior promotional works of the previous owners of the 死 sites.”

[0036](1)第一个问题–确定链接是否为“dead”–不平凡。根据HTTP协议[17],当向服务器发出不再可用的页面请求时,该服务器应返回一个错误代码,通常是HTTP返回代码404。实际上,许多服务器(包括最著名的服务器)都不会返回404代码–而是,服务器返回一个替代页面和一个OK代码(200)。替代页面有时会给出书面错误指示,有时会返回到原始域主页的重定向,有时会返回与原始页面完全无关的页面。研究表明,这些类型的替换称为“soft-404s,” account for more than 25% of the broken links. This issue is discussed in detail and a heuristic is proposed for the detection of servers that engage in 软404. The heuristic is effective for all cases except for one special case: a 死 domain home page bought 通过 a new entity and/or “parked”使用域名代理:在这种特殊情况下,通常可以确定服务器参与了软404,但是无法知道域主页是否是软404。

[0037](2)与断开的链路相关的第二个问题是衰减信号,即它们是非常嘈杂的信号。原因之一是它易于操作。实际上,许多商业站点都使用内容管理系统和质量检查系统,它们会自动删除任何导致404代码的链接。例如,实验表明Yahoo!分类法不断清除任何断开的链接。但是,这几乎不表示Yahoo!的每一部分!分类是最新的。

[0038]嘈杂的另一个原因是某些类型的页面倾向于活着“forever”即使没有人维护它们:一个典型的例子可能是研究生页面–many universities allow alumni to keep their pages and e-mail addresses indefinitely as long as they do not waste too much space. Because these pages link among themselves at a relatively high rate, they will have few broken links on every page, even long after the alumni have left the ivory towers; it is only as a larger radius is examined around these pages that a surfeit of 死 links is observed.

识别方法“soft 404s”很聪明,也不是很复杂 –通过询问名称在该目录中不大可能存在的页面来了解每个服务器如何处理域中目录中的错误。该过程着眼于目录而不是整个域的原因是,某些站点可能会将目录视为是单独的网站,具有不同的错误处理过程。

衰变分数

那里’在本节中有相当多的数学,但同样,’太复杂了。也许最好使用Yahoo!他们更详细地描述的示例:

[0099] Thus, it can be concluded that many of the pages pointed 通过 Yahoo! nodes, even though they are not 死 themselves yet, are littered with broken links and outdated. For example, consider the Yahoo! category Health/Nursing. Only three out of 77 links on this page are 死. However, the decay score of this page is 0.19. A few examples of 死 pages that can be reached 通过 browsing from the above Yahoo! page are: (1) the page http://www.geocities.com/Athens/4656/has an ECG tutorial where all the links are 死; (2) the page http://virtualnurse.com/er/er.html has many broken links; (3) many of the links in the menu bar of http://www.nursinglife.com/index.php?n=1&id=1 are 死; and so on. It is believed that using decay scores in an automatic filtering system will improve the overall quality of links in a taxonomy like Yahoo!.

他们使用了其他一些示例,但结果略有不同。我没有完全详细说明此过程,’我将把它留给有兴趣深入研究的任何人。但是,我希望这个例子可以弄清楚为什么重新访问您可能链接到您的网站的页面以了解它们可能衰减了多少的重要性。

结论

链接断开和网页衰减的问题是避风港’进行了很多探索,例如映射网络或其他对页面进行排名的方法。但它’重要的是要认识到它将吸引更多关注的领域。它’这也是网站管理员可以对链接和链接到的页面进行定期检查以及对页面的主题进行写法以防止过时的方式进行大量控制的区域。当然,重要的历史文献没有’t change –但是对它们的介绍可以表明它们仍然是有价值的,最新的并且值得高度评价。

考虑一下,官方网投引擎是否有可能开始使用某种类型的衰减排名调整’t,并且现在就采取措施,以防止排名在何时何地受到损害。

专利通常包括参考文献列表,例如其他专利,论文,书籍和网页;专利申请很少包含此类清单。这是一个例外,有31个参考文献的列表。如果您需要有关此主题的更多信息,其中许多可能值得一看。

I’撰写了一些有关链接的文章。这些是我发现很有趣的:

5/30/2006– Web衰减和链接断开可能对您的网站不利
2007年12月11日– Google的锚文本索引和爬网率专利
1/10/2009– 什么是互惠链接?
5/11/2010– Google的合理浏览器:基于链接和文档功能以及用户数据的链接价值可能会有所不同
2010年8月24日– Google的关联页面链接专利
2011年7月13日– 通过PageRank雕刻和意见传递链接授予Google专利
2013年11月12日– Google如何使用链接上下文识别链接垃圾邮件
2014年12月10日– 替代PageRank?
2018/4/24– PageRank更新

最后更新时间为2019年7月1日

分享是关怀!

7个想法“Web衰减和链接断开可能对您的网站不利”

  1. pingback:»Bill Slawski采访SEO嗡嗡声框
  2. pingback:Internet熵,AOL不’爱我们和其他新闻|国际数字战略
  3. 回应:Bill Slawski访谈· SEO Buzz Box
  4. 那’s a great 文章 with explanation. Is it the reason that Google is also removing the 死 pages. Or just because they don’随着网络日趋庞大,没有足够的空间。

  5. 谢谢。

    At this point, Google removes 死 pages rather than keeping them around as some kind of “archive”以前可能在那里–他们可以对页面的缓存副本进行处理。

    I’在Google上写了一些’的扩展索引,这似乎使官方网投引擎能够捕获并保留有关大量网页的信息。一世’我不确定这时空间不足是一个问题。

  6. pingback:链接衰减和链接资产保留
  7. Pingback:了解Google网站管理员工具404错误

评论被关闭。