重定向URL的所有权对搜索引擎重要吗?

分享是关怀!

网站管理员有时会将网站从一个域移动到另一个域,更改指向其网页的URL结构,或者自己重命名这些页面。

更改页面的URL是’t应该做的事情 without a lot of thought, and without very good reasons. Especially if there are many links and references on the Web to the old URLs. See 很酷的URI’t change 有关计划如何使用URL的许多技术性建议,以便’您不太可能需要更改它们。

Regardless, webmasters do sometimes change the URLs for 页数 found on the Web.

当站点的所有者决定更改其名称,重塑其产品的商标,合并或收购另一个站点或企业并希望以一个名字合并来自另一个站点的网页时,有时可能会发生这种情况。当博客决定更改其URL的永久链接结构时,也会发生这种情况。有时,产品线会被重命名,这些产品的卖方希望人们寻找他们,以新的名称找到产品。页面URL更改的原因还有很多。

为了使包括搜索引擎在内的访问者可以轻松地在Web上的新地址上找到这些站点和页面,网站管理员将设置重定向,以使访问原始URL(包括搜索引擎)的访问者可以到达新URL。搜索引擎可能会找到URL的重定向,并且必须决定要在搜索结果中显示有关信息的页面。

经常用于这种地址更改的重定向是永久重定向或301重定向,但是它’不是唯一的重定向类型。如果您打算使用重定向来使访问者和搜索引擎知道页面或站点页面地址的更改,则该重定向’了解为什么以及如何使用不同类型的重定向非常重要。无论使用哪种重定向,搜索引擎在遇到重定向时都可能会考虑其他问题。

有时重定向的发生是出于合法原因。

来自Yahoo的新发布的专利申请探讨了如何检查重定向,并试图了解原始URL的所有者是否是重定向目标URL的所有者。

An 例 from the patent filing describes one of the concerns that Yahoo has about redirects:

Redirecting URLs (uniform resource locators) is a very common phenomenon on the web. In dealing with redirects, a search engine, such as Yahoo!.RTM., has to come up with well-specified policies on which URL to index the content under. The search engine must also decide the appropriate URL to display as part of the search results. The problem is nontrivial, as can be seen from the following two 例s: http://www.rational.com (source URL) redirects to http://www-306.ibm.com/software/rational/ (target URL) as of Oct. 23, 2007, because IBM bought Rational Software; and spam websites like http://www.somespam.com (source URL) redirect to http://www.yahoo.com (target URL) as of Oct. 23, 2007.

在重定向的第一个示例中,搜索引擎希望在源URL和目标URL下都索引锚文本。搜索引擎也可能希望在搜索结果中显示源URL,因为源URL是根页面,因此可以改善用户体验。

另一方面,在第二个示例中,搜索引擎不希望将源(somespam.com)中的锚文本与目标(yahoo.com)相关联。在内容匹配的情况下,搜索引擎将不在乎显示源URL,而是在显示目标URL。

这里’专利申请:

识别两个网站是否共同拥有的方法和装置
由Anirban Dasgupta,Rajat Ahuja,Shanmugasundaram Ravikumar和Su Han Chan发明
美国专利申请20090228438
2009年9月10日发布
申请日期:2008年3月7日

抽象

提供了一种用于识别两个网站是否是共同拥有的方法和设备。在一个示例中,该方法包括:从互联网获得重定向URL(统一资源定位符)对;使用重定向URL对构建训练集;基于训练集构建特征集;以及基于特征学习共同所有权决策集和训练集。

确定重定向的所有权

试图了解原始URL以及可能重定向到的URL是由同一个人或组织拥有的,最简单的方法是比较有关使用Whois或使用Whois时出现的站点的注册信息。个人访问两个网站并进行比较。但是,Web上有很多页面以及可能的重定向,因此一种理想的方法是尝试找到一种使过程自动化的方法。

Web搜寻器浏览Web上的URL重定向对。找到它们后,它将有关这些对的信息发送到训练集中。训练集用于创建一组规则,以尝试确定原始源URL,并且通过重定向定向的URL由同一个人或组织拥有。

搜索引擎可以查看whois信息以尝试确定源URL和目标URL是否是共同拥有的,或者由人手动尝试确定页面是否共同拥有。

然后,可以在自动过程中使用此训练集来探索其他成对的重定向URL,以确定重定向URL是否共享相同的所有权。使用的算法将利用从训练集中可以学到的知识来构建“feature set”关于从一个页面重定向到另一页面的不同URL上页面的所有权。专利申请告诉我们:

特征集实质上是用于训练系统以达到以上参考图1讨论的人类社论的理想的一组规则。再次参考图1。参照图1,在训练集构造器设备构造训练集之后,系统通过使用从网络图和从训练集URL的内联中得出的特征来学习共同所有权决策。特征集构造器设备接收训练集并构造共同所有权决策的特征集。

The patent includes a number of 例s of features that it might examine to decide whether redirected URLs are shared 通过 the same owner:

重定向URL对的URL重叠 –对源URL和目标URL中的字符(字母和数字)进行标记,并将其与标记字典进行比较,可以通过在这些标记中查找最常见的单词来组织标记。

For 例, the URL “http://www.example.com/blog/” is found, and seen to be redirecting to “http://blog.example-site.com/”

分析会将URL中的每个字母/字符分解为令牌,例如:

e, ex, exa, exam, examp, exampl, 例, xa, xam, xamp, xampl, xample, am, amp, ampl, ample, m, mp, mpl, mple, p, ple, l, le, e
b, bl, blo, 博客, l, lo, log, o, og, g
等等…

分析可能会发现两个URL都包含“blog,” and “example”并确定原始(或源)URL与作为重定向目标的URL之间存在相当数量的重叠(统计上有意义的数量)。

DNS(域名服务器)重叠 –查看两个网站使用的两个域名服务器的IP地址。

URL锚文本重叠 – The link text, or anchor text, used 通过 inlinks pointed to the domains are viewed and compared to words found within the URLs. Since search engines collect information about links to 页数 such as the URLs and the anchor text used 通过 those links, this information is often readily available to search engines. For 例, the anchor text “SEO 通过 the Sea” might be used in a link to “//www.ao-da.com.” Using the kind of tokenized analysis and comparison described above would find that there is a statistically significant overlap between that anchor text and the URL.

Because redirects are sometimes used to spam search engines, a method like this is included to try to uncover spam. If anchor text pointed to the orginal URL matches well with the contents of the URL, but anchor text of the URL being redirected doesn’t match well with the anchor text, then there may be a problem. For 例, anchor text in a link might be the word “yahoo webmaster guidelines” and the original URL might be “http://www.yahoo.com/webmaster-guidelines” but the redirected URL might be “http://www.example.com/prescription-drugs/”

专利申请告诉我们:

锚文本的垃圾邮件是本发明的重要考虑因素。本发明的系统利用机器学习来预测两个网站的共同所有权。由于系统执行的方法将是公共信息,因此该系统是开放的,可以被垃圾邮件发送者操纵。垃圾邮件发送者可以很容易地指定多个URL指向垃圾邮件网页,并使这几个URL错误地将垃圾邮件网页描述为非垃圾邮件网页,例如Yahoo!.RTM。主页。

垃圾邮件发送者因此可以轻松地设置隐藏垃圾邮件的实例。伪装使搜索引擎可以记录URL的内容,该内容不同于搜索者最终会看到的内容,而垃圾邮件发送者通常是故意这样做的。为了解决此问题,系统采用了有关锚文本的信任信息,系统可将其用于掩盖垃圾邮件,从而创建错误的匹配。该系统可以采用例如搜索引擎在典型的网络搜索中使用的相同种类的定义。

垃圾邮件/善意措施 –可以查看通过源URL和目标URL对这两个网站中的每个网站的垃圾邮件程度或可信度的任何类型的度量。如果源站点是垃圾邮件网站,而目标站点不是垃圾邮件网站,则URL重定向对很可能不是共同拥有的。搜索引擎可以使用多种方法来尝试确定页面是否为垃圾邮件,从查看与页面相关联的链接结构到查看这些页面的内容以及两者的组合。专利申请没有’•提供可能使用的任何特定方法的详细信息。

目标网址在网页中的标题 –目标URL上的页面标题可能会与源URL上的页面标题进行比较。如果标题匹配,则可能会假定URL是共同拥有的。

结论

当网站站长使用重定向将访问者(和搜索引擎)发送到网站的新地址时,搜索引擎可能不仅会考虑该重定向的存在,还可以决定是否会将访问者传递给网站中的新地址搜索索引。

搜索引擎可能会遵循探索诸如重定向的源URL和目标URL是否由同一所有者拥有之类的策略。

关于源URL和目标URL的共同所有权的决定还可以确定搜索引擎是否将用于第一个URL的锚文本与将其重定向到的URL相关联。如果确定URL是共同拥有的,则搜索引擎可能会将第一个URL的锚文本与第二个URL关联。

专利申请没有’基于共同所有权的确定,讨论是否可以通过重定向将链接流行度(例如PageRank)传递给新URL,’一个值得思考的想法…

分享是关怀!

37想法“重定向URL的所有权对搜索引擎重要吗?”

  1. 凉!现在我赢了’将我的博客博客迁移到wordpress博客时,不必再担心了。这是非常有用的信息,因为开始的博主选择blogspot作为其平台,因为它’免费。但是自定义限制了它使wordpres作为他们的选择。唯一困扰我的是pagerank和我的网站被索引的时间。会再次放沙箱吗?

  2. Pingback:重定向URL的所有权是否对搜索引擎重要? -网站管理员论坛
  3. 非常有趣的专利。我认为搜寻引擎将来会花费大量时间寻找类似的网页拥有者,以减少垃圾邮件…

  4. 真的很有趣,谢谢。使用注册数据是非常有缺陷的imo,但如果同时使用所有因素,我’d有兴趣了解与实际重定向意图相比如何。

  5. 嗨,动漫游戏,

    I’我不确定那里’可以使用任何简单的方法对Blogspot上的站点使用301重定向,或者尽可能将访问者发送到自托管的wordpress博客。

  6. 嗨,迈克尔,

    谢谢。我喜欢那种思路–如何使用相关过程来进一步探索链接。我可以看到搜索引擎对发现的URL进行了类似的爬网后分析,其中包含一组确定索引顺序的规则以及对某些页面的潜在过滤。重定向的探索可能是此类分析的副过程。

  7. 嗨,古斯塔夫,

    谢谢。我喜欢这个专利申请,是因为它使我们对决策背后的过程有深入的了解,例如当搜索引擎看到重定向时搜索引擎可能在搜索结果中显示哪个URL,以及搜索引擎是否可以传递锚文本的值。这些重定向。它’能够一窥这些决定背后的一些想法真是太好了。

  8. 大卫,您好

    Whois信息的确是一团糟。通常情况下,专利会提供有关流程的较高层次的概述,并且可能会在不深入探讨或提供有关如何实施其所涵盖的方法和流程的确切路线图的情况下,为我们提供一些示例性示例。一世’d喜欢听到他们所涉及的一些事情的更多信息,例如他们如何根据以下内容对原始网站和目标网站进行评分“spamness/goodness,”但我确实认为’这种方法背后的潜力。

  9. 这是一个很好的职位。看看Yahoo怎么会很有趣’专利对整个seo社区都有影响。

    问候,

    卡尔

  10. 嗨,卡尔,

    我不’我们相信此专利申请针对的是任何特定社区,无论是SEO,网站管理员,水管工还是其他任何人。它’旨在通过帮助搜索引擎确定在重定向到另一个URL的URL时显示哪个页面,从而为搜索引擎提供一种方法,以尝试为搜索者获得最佳体验。

  11. 我想知道我们是否可以制定一些规则,以告诉我们网站在垃圾邮件/良善程度的范围内,从而使我们了解,是什么导致搜索引擎通过分析典型的垃圾邮件网站将新目标链接评为垃圾邮件? ?例如,关于页面的不完整,帖子的频繁删除,没有联系方法以及其他网站上的大量pingback可能开始表示垃圾邮件。我想我们应该考虑是否应该为重定向页面建立一个好的站点。

  12. 嗨弗兰克,

    一套规则会很好,但是我认为网站可以做很多事情,使访问者看起来像是您所描述的那些,是高品质的。一世’我还是《斯坦福信誉指南》的粉丝– http://credibility.stanford.edu/guidelines/index.html

    雅虎白皮书中可能有一些暗示和想法,它们可能是他们在确定网页或网站在垃圾邮件/良善程度中所处的位置时正在寻找的东西。以下是其中一些:

    其中三个主要关注点和链接垃圾邮件,而不是分析页面上的内容。鉴于此,正确的直接指导可能需要采取几个步骤,以吸引和追求高质量页面的链接,并谨慎链接到何处。此外,建立一个充满有趣,引人入胜,有用和可信内容的高质量网站,也会增加您’将吸引高质量页面的链接。

  13. 我最近将其中一个站点移到了新域,同时也保留了现有站点。

    It’使用旧域的301重定向并将其指向新域的过程非常简单。

    搜索引擎需要一段时间才能赶上,但我仍然发现“pages”来自我在搜索列表中的旧域名。

    I’我非常有兴趣了解有关Yahoo获得专利的更多信息,这可能会对SEO的整个过程产生一些影响。

  14. 这是一个很好的概述,但我希望有人可以阐明搜索引擎与302重定向对301重定向的不同处理方式’s。我了解302应该仅是临时重定向,但这是否也会影响SEO排名?是更好还是更坏?

    那里 are some cases where a website owner wants to legitimately do a 302 temp redirect, but 我不’不知道其中的含义是什么。

  15. 嗨,迈克尔,

    通过设置正确的服务器,将一个域上的页面重定向到另一个域可能非常简单。但是有时,它可能会稍微复杂一些,具体取决于所使用的服务器软件,服务器的配置以及站点所有者在服务器上进行更改所需的访问量’s hosted upon.

    专利文件中描述的过程可能会对搜索引擎如何确定在找到重定向时在其索引中包括哪个URL产生影响。如果您想进一步研究,可以找到上面专利申请的链接。

  16. 你好汤姆,

    搜索引擎可能会认为临时(302)重定向只是暂时的,可能会变回原来的重定向。因此,它’可能原始网址可能会显示在搜索结果中,而不是目标网址中,并且’搜索引擎也可能不会基于指向旧URL的锚文本与新目标URL关联任何链接合法性(或PageRank)或相关性。

    永久(301)重定向似乎更有可能证明有意保留新网址,并且’搜索引擎会在搜索结果中显示新的URL,而不是要重定向的URL,这很有可能(但不是绝对确定)。’搜索引擎更有可能将基于锚文本的链接合法性(或PageRank)和相关性与新的目标URL相关联。但是,正如该专利所指出的那样,搜索引擎在做出决定之前可能会考虑一些因素,例如URL是否似乎属于同一所有者。

    有时,网站所有者可能想合法地进行302临时重定向,例如,重定向是临时的。

  17. Pingback:SEO每日阅读-第157期– Internet 标记 eting 博客
  18. 非常感谢您对Bill的出色概述(您为我节省了USPTO整个专利3美元的费用)。听起来雅虎正在透露他们(以及其他人)在确定重定向背后意图的过程。我怀疑这就是为什么搜索引擎需要很长时间才能将PageRank从一个URL传输到另一个URL的原因。

  19. 谷歌允许您通知他们您已移动页面。 id认为它可以帮助他们索引新页面,并按我所说的那样传递pageranks和关键字绒毛。但是,我想知道,如果网站受到某种惩罚并且所有者在新的url上建立了一个具有相似内容的新页面,但是PR和fluff是否会通过,但可以说改变了网站的结构可能使google迷惑了。我在一个论坛上读到,人们试图从被禁止的站点到具有平均PR和良好关键字绒毛的现有站点设置数百个301,以尝试将它们存储在SERP中,并且目标网页没有移动。如果是这样,那么设置一个301页面来获取习惯于访问某个URL(现在已被禁止)的客户端,看起来安全吗?

  20. 嗨玛丽安,

    您’重新欢迎。不知道为什么’当专利可在线查看和获得时,将向美国专利商标局支付专利费用。我们正在窥视幕后,但可能不是一切。搜索引擎可能需要很长时间才能通过重定向传递PageRank–这可能表明在这些情况下发生的事情不仅仅是确定所有权。

  21. 嗨,尤文,

    这些是一些有趣的问题。感谢您的提出。

    I’我不确定尝试使用通过某种方式被禁止或处罚的页面或网站的重定向是否真的会帮助或伤害被重定向到的网站,无论该网站是被重定向到的网站是新的还是已经存在的网站。而。

    雅虎的上述专利申请没有’我没有具体描述其中一些场景,但确实提供了一个示例(我’(包括在上面的引文中)有关使用从站点重定向来尝试将某些锚文本与其他人拥有的另一个站点恶意关联的信息。使用来自被禁止站点的重定向来尝试危害竞争对手’s site shouldn’不是人们应该能够做的事情,我想这是’这是本专利申请试图避免的伤害。

    使用重定向从禁止的站点到另一个站点,而不管谁是另一个站点的所有者,以试图规避惩罚或禁止并传递可能获得的PageRank’也没有帮助,但是那 ’可能与网站是否是共同拥有无关。如果某个网站被禁止或受到处罚,那么尝试着使事情变得更好的方法更有可能解决问题并经过某种重新包含过程,而不是尝试使用某种重定向。

    但是,这确实提出了一个很好的观点。它’像这样的情况很可能是搜索引擎不得不解决的事情,而使用重定向传递PageRank和超文本相关性可能不是’它看起来像表面上的过程一样简单。

  22. 再一次,比尔,您让我震惊的是您细分文章中信息的方式。我从您的网站中学到的东西比其他在线SEO网站还多。您必须了解如何破译SE’的专利以及与他人共享财富的能力,才能为您鼓掌。我已经在自己的网站网络中进行了很多301测试,以查看结果。本文刚刚备份了我的结果。让他们来吧!

  23. 更改我的一个博客的网站结构/名称时,我得到了非常糟糕的结果。
    我的网站排名从第3位下降到150位。我花了将近2个月的时间才将网站恢复到相同位置。

    所以请小心!

  24. 嗨,丹,

    感谢您的警告。

    不幸的是,人们有时会对URL和链接结构之类的东西进行更改,而没有意识到其动作的含义,没有探索使用和设置重定向的正确方法,或者即使他们确实知道如何正确使用重定向也没有意识到,则存在进行此类更改的风险,而搜索引擎不会’进行此类更改时,请始终执行预期的操作。

    在进行更改时,您可以做一些事情来尝试减轻风险,例如识别旧链接,并更改您可以控制的链接,例如目录列表,并要求链接到您的人更新其链接。到您的新地址。在这种更改过程中,在新地址处寻找新链接是不可行的’这也不是一个好主意。事先让人们知道您将要移居新地址也是明智之举。还可以采取其他步骤来减少流量和排名的损失,但是正如我在本文开头所写的那样,“更改页面的URL并不是没有太多考虑,也没有很好的理由的。”

  25. 绝对更改页面标题/网址’s和/或完全更改域名不是为了胆小,而是需要进行许多仔细的准备。在大多数情况下,您的访问量和排名都会暂时下降,直到Google将获取的网页排名重新应用于新的等效网页为止。通过对网站站长中心进行预先计划和监视以解决404错误并正确利用适当的301重定向,该网站’的排名应该反弹。不过,确保更改绝对必要非常重要。如果没有,他们不应该’t be touched.

    我有一个需要更改域名的客户,而我对于进行如此大的更改感到有些紧张。感谢您提供专利信息。它使我的神经有些平静。 ðŸ™,

  26. @卡尔·福克斯利
    我不’认为这将对整个SEO社区产生很大影响,但会为一些BH SEO提供一些见识,并让他们思考如何保持领先地位。

  27. 嗨休斯顿,

    我完全赞成你–对域和URL进行更改充满了一些风险。旧的陈词滥调,“测量两次,切一次” probably isn’足够谨慎。要求进行仔细的计划,并在事后进行广泛的检查,以确保没有错。即使您正确地完成了所有重定向,查看其他所有内容仍然值得。

    例如,有时(经常)人们在移至新域的同时对站点进行更改,然后他们在开发服务器上进行更改。在开发过程中,他们可能已经设置了robots.txt文件,以便搜索引擎’抓取他们的任何页面。当他们将网站从开发服务器移到新位置时,有时很容易忘记更改robots.txt文件,以便搜索引擎可以在新位置爬网新网站。它发生了…

  28. 您好Ed,

    I’m not sure that this patent might be all that helpful to people using redirects to spam search engines. It does provide some hints at the analysis behind the decision on which page to show in search results, but 我不’认为这将帮助试图操纵搜索结果的人们。

  29. Bill, you posted a unique Weblog entry about a topic about which 我不’经常在线查看Weblog条目。此外,我同意这里的大多数评论者的意见。

    我了解任何将其网站从一个域移动到另一个域的网站管理员(无论他或她是没有经验的还是资深的)的困境,此时他或她必须将旧的URL指向他们的新网页或重命名这些网页。

    由于单个致命错误的潜在影响,因此在尝试永久(301)重定向或临时(302)重定向之前,相关网站管理员和SEO社区成员必须与经验丰富且信誉良好的同事进行协商。

    记住这句话:“网站管理员,请小心。”

  30. 我看到过去经常访问的许多网站都被竞争对手买断了。新所有者将URL重定向添加到所购买URL的索引页,从而将流量传递给购买者的URL。

    不幸的是,新所有者的内容质量远低于所购买的原始网站。在我停止一起拜访之前,只花了很短的时间。

    有鉴于此,我可以理解为什么搜索引擎如此对大量分析重定向如此感兴趣。我可以想象,搜索引擎会非常关注接收来自重定向的流量的页面的跳出率。正如我个人所看到的那样,所有权的改变可能会在质量方面带来所有差异。

  31. 嗨,马克,

    当有人购买较旧的域并设置到具有不同内容的其他站点的重定向时,链接的值可能会随着时间的流逝而衰减。尽管其中一些可能是由于人们删除了指向已更改的网站的链接,但也可能是由于搜索引擎确实分析了重定向并将新页面上找到的内容重定向到而导致的。

    谷歌’的有关基于历史数据的信息检索的专利提供了这种分析的两个示例,例如,重定向的链接中的锚文本不再与新页面相关,而与旧页面相关。

评论被关闭。