网站上不同URL上的重复网页

分享是关怀!

网站上重复网页的问题

可能导致搜索引擎爬行网站以为其页面建立索引的技术问题之一是,当该网站上的页面内容多次出现在该网站的不同URL(唯一资源定位符或网页地址)上时。

不幸的是,此重复的网页问题比应有的发生频率更高。

Yahoo的一项新专利申请探讨了如何处理动态URL来避免此问题。该专利申请的优点在于,它识别出由于同一站点上不同网址上的重复网页而可能引起的许多问题,以及它们可能用于解决问题的一些方法。

尽管像Yahoo这样的搜索引擎可以解决围绕重复网页内容的某些问题,但网站所有者的最大利益通常是不依赖搜索引擎,而是自己解决此问题。

避免抓取重复的网页

搜寻程序浏览全球Web,并识别和索引尽可能多的信息。这些程序查找新页面以及旧页面上的更新,以便可以对信息建立索引,并通过搜索引擎将其提供给搜索者。

Web 爬行ers often start 爬行ing the web at one or more web pages, and follow links to those webpages to other pages, and so on and so on.

这些程序为了获取尽可能多的信息而可能遵循的策略是尝试仅“crawl”提供独特内容的页面– pages that haven’t已被索引或已经在索引中已被更新。

One assumption that a web 爬行er could make while following this strategy is that a unique URL (Unique resource locator) corresponds to a unique webpage. As I noted above, this isn’t always true.

搜索引擎没有’不想多次索引站点上的同一页面,但是这种情况经常发生,并且站点的其他页面通常不’不会被索引,而其他URL在不同的URL下会被多次索引。我记得在网站上看到至少一个页面被Google索引了数千次。

当网站使用内容管理系统或使用动态URL的电子商务平台时,可能会发生该问题。

动态URL通常是通过搜索数据库驱动的网站或运行脚本的网站的URL得出的。与静态URL相比,在静态URL中,除非将更改编码为HTML,否则网页内容不会更改,而动态URL通常是从对网站的特定查询中生成的’s database.

该网页具有一些固定的内容,并且该网页的某些部分是显示查询结果的模板,其中内容来自与该网站关联的数据库。这导致页面根据每个动态参数从数据库中检索的数据进行更改。

动态网址通常包含以下字符:?,&,%,+,=,$,cgi。动态URL的示例可能类似于以下内容:

http://www.amazon.com/store?prod=camera
&brand=sony
&sessionid = 7ek138-dje72931d91ds。

URL和重复网页中的多个参数

页面的URL可以在不同的字段中包含许多信息,这些信息称为参数,并定义产品或服务的不同特征和分类,或者可以确定向查看者显示信息的顺序。这里’s是模块化存储中心的JCPenny网站上的网页URL的示例:

http://www5.jcpenney.com/jcp/ProductsHOM.aspx
?DeptID = 40525
&CatID=40681
&CatTyp=DEP
&ItemTyp=G
&GrpTyp=STY
&ItemID=11a46ae
&ProdSeq=5
&Cat=buffet%2bhutches
&Dep=Furniture&PCat = dining%2bkitchen
&PCatID=40530
&RefPage=ProductList
&Sale=
&ProdCount=26
&RecPtr=
&ShowMenu=
&TTYP=
&ShopBy=0
&RefPageName = CategoryAll%252Easpx
&RefCatID=40530
&RefDeptID=40525
&Page=1&CmCatId = EXTERNAL | 40530 | 40681

搜索引擎可能无法在该URL上为该页面建立索引,因为该页面包含太多参数,但可以尝试。 Google在同一产品下使用不同的URL列出了7次,在每个列表的URL中使用了不同数量和参数组合。

源或会话参数可能会导致网页重复

在动态网址中使用多个参数时,’如果从网址中删除了一个或多个参数,则该页面的内容可能不会’不能以任何方式改变。上面引用中的示例包括一个sessionid,如果将其删除,则不会’t更改页面的内容(网站通常使用会话ID来跟踪网站页面上唯一身份访问者的进度)。

一些动态网站使用的另一个常见参数是源跟踪参数,它使网站所有者可以在访问者到达网站之前知道其来自何处。

因此,每当人们到达使用URL中的会话ID和源ID的站点时,即使他们正在访问同一页面,也可能为这些参数分配唯一的编号。还可以为搜索引擎爬网程序提供页面的会话ID以及源ID。

如果您查看主要搜索引擎中的搜索结果,则可能会看到索引中的页面,这些页面的URL中包含会话ID和源ID。网站不应该’将会话ID或源ID提供给搜索引擎。因为有很多,搜索引擎最终可能会多次索引来自站点的页面。

It’也可能由于页面上信息的排序或显示方式,或者由于某人访问某个特定产品所经过的站点的路径,URL可能针对相同的内容而更改。

网页重复,因为这些页面上有一些独特的内容

页面的内容有时可能会进行不同的排序,或者包含一些额外的内容,例如一组显示部门和类别的面包屑导航,不同URL的页面的总体内容可能基本相同。那里’可能存在数百个提供相同特定内容的重复网页。

And a web 爬行er may unintentionally send all of the 重复的网页 to be 爬行ed.

为什么索引重复网页是一个问题?

浪费时间比较页面

虽然搜索引擎可能会尝试“智能地分析特定网页,并将该特定网页与其他网页进行比较,以确定特定网页的内容是否真正独特,” it’在这样的分析过程中发生错误的情况并不罕见。而且它会占用大量计算资源来访问网页并进行比较。

通过花费时间对网站上的页面进行比较,搜索引擎可能不会花费时间来访问其他有效且非重复的页面。

对于一个拥有数千甚至上百万页面的网站,搜索引擎爬网程序只会在该网站上花费一定的时间,然后再移至其他网站。如果它试图索引和比较网站页面的速度过快,可能会对网站向访问者提供页面的性能产生负面影响。还有很多网页需要在网络上建立索引。

因此,具有可以在许多不同版本的URL下访问的相同内容的网站最终可能会多次对同一页面建立索引,而该网站的其他页面根本没有被索引。

索引页面的严格规则可能会导致问题

爬网程序可能还会提出一组规则,以遵循这些规则,以避免特定网站的重复网页,例如仅查看少数具有以下内容的网页:“similar looking”网址。否则,它可能无法访问长度超过一定字符数的URL。这些规则可能会导致丢失大量内容。

雅虎专利申请

Handling dynamic URLs in 爬行 for better coverage of unique content
Priyank S. Garg和Arnabnil Bhattacharjee发明
美国专利申请20080091685
Published 四月17, 2008
归档:2006年10月13日

抽象

提供了用于识别重复网页的技术。在一种技术中,标识一个第一唯一URL的一个或多个参数,其中一个或多个参数中的每一个基本上不影响相应网页的内容。可以重写第一URL和后续URL以删除一个或多个参数中的每一个。

随后的每个URL与第一个URL进行比较。如果后续URL与第一个URL相同,则不会访问或爬网该URL的相应​​网页。在另一种技术中,多个URL的参数例如按字母顺序排序。如果任何URL相同,则不会访问或爬网重复URL的网页。

该专利申请提供了有关搜索引擎可能试图在不捕获太多重复网页的情况下尝试索引站点URL的许多策略的一些细节。所描述的方法包括执行以下操作:删除似乎不必要的URL中的参数以及会话和源ID,以及按数字和字母顺序对URL中的其余参数进行排序。

例:

这个网址:

http://www.amazon.com/store?prod=camera
&brand=sony&sessionid = 2k4gd0-3k9sx1zc8d

可能会改写成以下形式:

http://www.amazon.com/store?prod=camera&brand=sony

The other URLs found 通过 the 爬行er are also rewritten and compared to the shorter form of the URL. If they match then those pages aren’t 爬行ed and indexed.

搜索引擎可能会在其索引中显示URL的较短版本,除非托管该页面的服务器需要查看较长版本的URL才能提供相关页面。

结论

专利文件中描述的过程可能会捕获许多包含重复内容的URL,但是很可能会丢失许多其他URL。

I’先前曾写过有关Google和Microsoft试图解决此问题的内容的方法,这些问题是在网站的不同URL上进行的:

尽管可能需要一些仔细的工作和计划​​, ’建议网站所有者尽量避免在不同页面上拥有相同的内容,而不是依靠搜索引擎来确定哪些URL是重复的网页。

最近更新时间五月26,2019

分享是关怀!

关于29条想法“网站上不同URL上的重复网页”

  1. 嗨,比尔,感谢您的文章,我一直在研究和阅读有关该主题的文章’m checking a Site’的结构,这是网站I的一些事实’m working on:

    -根据Google的说法,该网站有3500页’的site命令结果,但仅显示500页,之后显示以下消息:

    “In order 为了向您显示最相关的结果,我们省略了一些与 the 500 already displayed.
    如果愿意,您可以重复搜索,并包含省略的结果。”

    这是否表示重复内容问题?

    -该站点有一个Blog,大多数meta标题和描述是相同的。

    -Blog具有多个类别,这些类别在不同的URL中显示相同的内容’s(标记),有时可以在5或6个不同类别中标记文章。这还会导致重复的内容问题吗?什么’最好的方法来解决这个问题?

    -博客还显示存档的页面,以及按星期列出的帖子列表。有人告诉我可以通过机器人解决此问题,以便搜索引擎不对按星期列出的存档和帖子进行索引。如何才能做到这一点?

    -该网站还存在规范化问题,在Google上运行site命令时,它会显示一些网址’s为http,有些为https。

    -还告诉我“nofollow”网站上的某些页面,例如:与我们联系,隐私政策等,以避免公关无效。

    如你所见’有关本网站的许多问题’的结构。您能否在不损害网站的情况下给我一些解决方法,’健康吗?提前致谢。

  2. 嗨,彼得,

    I’我也经常看到这一点。我想知道为什么这么多站点会犯此错误,而不尝试与首先了解更好的人交谈,或者至少对该主题进行足够的研究以知道它可能会引起问题。

  3. 您好,SEO提示,

    您’re welcome.

    -根据Google的站点命令结果,该站点有3500页,但仅显示500页,然后显示以下消息:

    “In order 为了向您显示最相关的结果,我们省略了一些与 the 500 already displayed. 如果愿意,您可以重复搜索,并包含省略的结果。”

    这是否表示重复内容问题?

    那里 are potentially a number of factors that go into the decisions that a search engine makes to 爬行 the pages of a site, and show them in its index. The text that appears tells us that

    …为了向您显示最相关的结果,我们省略了一些与 the 500 already displayed.

    When a search engine 爬行er visits pages, it follows a number of protocols that determine how deeply it might go through a site, and how many of the pages of a site it might display in its index.

    这些协议或有关爬网,建立索引和显示页面的规则可能取决于许多不同的因素,包括网站的页面链接数量,网站页面的链接数量,这些页面的页面排名,内容在每个页面甚至其他页面上的独特性。

    无论这些协议以及它们如何应用于您的站点,您都希望通过它并尽可能多地解决潜在的重复问题。

    那里 are a number of steps I would take to try to address this behavior. The first would be to use a tool like Xenu Link Sleuth to 爬行 the pages of the site and see what pages actually exist on the site.

    蜘蛛陷阱

    您 may discover 蜘蛛陷阱 on the site, where a search engine 爬行er can get stuck into an endless loop for one reason or another. 那里 are a number of situations where those can crop up, and they should be resolved so that a spidering program doesn’t get stuck. 您 may see Xenu continuing to 爬行 pages and not stopping, and may have to stop Xenu, and use it’s “do not check any URLs beginning with this” feature do keep it from 爬行ing the directory where the spider trap appears to get Xenu to finish 爬行ing a site. If you have to do that, look back at that directory, and try to figure out why Xenu is getting stuck in that directory – some calendar programs, breadcrumb programs, and page expansion widgets may cause the dynamic generation of new URLs when a spider attempts to 爬行 them, which would result in a spider trap. 您 may have to use a disallow statement in your robots.txt file to keep that from happening. Poor use of relative links may also cause the same page to get revisited over and over and over with a URL that continues to get longer and longer and longer (“http://www.example.com/contact,” followed 通过 “http://www.example.com/contact/contact,” followed 通过 “http://www.example.com/contact/contact/contact,” and so on.) Fixing the problem with the relative link may resolve that problem.

    规范化

    您可能还会看到规范化问题,其中一些页面可以在多个URL下建立索引,理想情况下,应该对其进行修复,以便搜索引擎蜘蛛每页只能看到一个URL。以下示例显示了搜索引擎如何将站点的主页视为四个不同的页面:

    “http://www.example.com”
    “http://www.example.com/index.html”
    “http://example.com”
    “http://example.com/index.html”

    您’我想选择一个版本,并坚持在您网站的所有内部链接中使用不一致的版本。一个不错的选择是不要在这些链接中使用默认文件名(“index.html”在我的例子中。这将使您拥有:

    “http://www.example.com”
    “http://example.com”

    选择一个版本,并在内部链接中使用它。另外,请使用永久重定向,以便您决定不使用的版本将重定向到您执行的版本。我喜欢使用“www”在页面中,因为很多人习惯于看到“www”在网址中,但是任何一个版本都可以正常工作。人们可能会使用您以前使用的版本从其他页面链接到您的网站’可以选择,但是您的永久(301)重定向应该使您能够获得这些链接的链接流行度(PageRank)。

    还会出现其他规范化问题,例如在同一页面上出现“http” and an “https”这些问题也应该解决。如果您的网页使用的是https协议,则在这些网页的链接中使用绝对URL是确保这些网页中没有’t supposed to have “https” in them don’t,以及应该具有的页面“https” in them do.

    这篇文章中的Yahoo专利申请讨论了将解析为相同内容的URL,这些URL中是否包含某些数据参数,或者具有可能以不同顺序出现的数据参数。在理想的情况下,并可能通过某些智能编程或某些购买的中间件软件,可以避免在站点上使用使用不必要的数据参数的URL。最好的方法是每个页面的网站上只有一个URL。

    博客问题

    It’一个好主意是每个页面都有唯一的页面标题和唯一的元描述,否则可能会导致“为了向您显示最相关的结果,我们省略了一些与”您描述的结果。如果您使用的是WordPress博客,则可以使用一些插件来简化博客每个页面的唯一页面标题和元描述。

    至于博客类别,我尝试选择最佳类别,每个博客帖子仅使用一个类别。

    Using robots.txt to disallow the 爬行ing of archives pages isn’t a bad idea, either. The URLs for my monthly archives look like this: “//www.ao-da.com/?m=200604”

    中的禁止声明 我的robots.txt文件 每月档案看起来像这样:

    不允许:/?m

    我不’t know how you’ve set up your “按星期列出的帖子列表。” If it’只是周末的博客帖子,列出了前一周的帖子,’t be a problem.

    我也用“post teaser”该插件仅在首页和类别页面上显示帖子的简化版本,而完整帖子仅显示在实际帖子页面上。那里’那样的内容重复,但是’通过使用简化版本来限制。

    我不’t喜欢使用rel =”nofollow”尝试将PageRank的流量限制为网站页面。那 ’有点超出这篇文章的范围,所以我’我不会在这里深入探讨为什么。

    Compare Pages on 您r Site with Pages in Search Engine Indexes

    I’d还查看主要搜索引擎的搜索引擎索引中显示的结果。做一个site:www.example.com搜索每个主要的搜索引擎,将每个搜索结果粘贴到单独的文本文件中,然后粘贴到电子表格中,对它们进行排序,并删除所有 ’来自站点的链接。

    然后查看一下搜索引擎正在索引什么并且无法索引。这可以帮助您确定以前没有的一些重复和索引问题’t catch.

  4. Pingback:.neteffect,2008年4月20日| 博客Well
  5. 好东西,我知道很多人都陷入了这个陷阱。避免重复的内容是一件很容易的事情,它只需要我们做一点工作,但是考虑到长期的影响,’做出艰难的决定并不是太多。 --

  6. 谢谢Bill,谢谢您花时间解释这些问题,我们将按照您的建议进行。继续努力!

  7. 谢谢,摩根。

    关于重复内容的棘手部分通常是理解为什么可能是一个问题。许多电子商务平台和内容管理系统无法解决重复的内容,并导致搜索引擎出现索引问题。

    您’欢迎您,SEO提示。

    I’希望能解决您网站上的这些问题,从而为您的搜索引擎带来更好的待遇。

  8. 如果您有DC,这是您自己的错..-SEO是一项艰苦的工作,如果您尝试作弊,您可以得到自己的现场乐队..而必须再次打孔。

  9. 我已经听过很多次了,却不知道他们在说什么。现在,它开始变得有意义了。

  10. It’让robots.txt禁止某些页面的索引(由排序程序产生,例如//?sort = new,?sort = popular等)并让您的网站更加清晰并不是很困难。

  11. 法案,

    我从来没有想到过将博客条目归入一个以上的类别会导致电子商务网站在动态内容方面遇到同样的问题,但是现在您提到它确实发生在我的博客上。不知道该伤害了多少“省略了一些非常类似于的条目” thing…嗯。我想得越多,就越怀疑*导致*相关结果无法显示。 kes!

    在完全不同的网站(例如,在我自己的博客和BlogHer上)上发布文章怎么办?一世’我对是否’是不是一个问题,现在我’我读过这个,我又想知道。

    另一个非常发人深省的帖子。谢谢!

    问候,

    凯莉

  12. 对,就那个’关于我从中得到的信息,我可能应该重新考虑如何对帖子进行分类!

    我不’与搜索引擎选择我要显示的位置(就两个不同的网站而言)的想法非常相似,但是我想只要’在两个地方都是我’s not a problem.

    再次感谢,

    凯莉

  13. 谢谢,凯利。

    类别是人们在您的网站上查找与主题相关的帖子的一种便捷方法,但是当您将帖子添加到多个类别页面时,您将在更多URL上复制内容。通过仅在网站首页以及类别和档案页面上发布部分帖子,而仅在该帖子上发布完整帖子,可以将这种影响最小化’的页面。但我确实避免避免将帖子添加到多个类别中。

    并非所有重复内容都是不好的–例如,来自有线服务的许多新闻报道都在许多不同的网站上发布。在Blogher应该这样的地方重新发布您的帖子’不会导致您的网站受到处罚,但可能只会导致您的内容的一个版本显示在搜索结果中–搜索引擎决定要显示哪个。

  14. 如果可以的话,在正确的时间发布一个不错的帖子-

    谢谢比尔-

  15. 罗伯特你好,

    如果您发现有必要使用不同的URL创建多个网站,则可以尝试以下操作:

    1.)自定义定制内容,尽可能从每个不同的领域到本地市场。

    2.)托管与市场相关的每个领域。

    3.)尝试从每个市场中的其他站点获取这些市场的域的链接。

    为不同的市场开发独特的内容可能需要做更多的工作,但是对于每个不同的目标市场,您可能都希望通过编写针对每个市场的内容来编写内容。受众不同,网站内容也应该不同。

  16. 但是,如果我想将国际公司推销到多个国家/地区的本地市场怎么办?我想要两个网址’s recognised.

    考虑… 我不’既有company.com,也有company.co.za,company.mu和company.co.uk。我希望能够将这些市场营销到本地搜索,但是它们被认为是包含2个重复站点的单个站点。 company.co.za赢了 ’不会在google.co.uk中显示本地搜索,但是’s被索引的那个。如何设置它,以便将每个URL返回本地搜索?

  17. 嗨,比尔,
    首先我’d非常感谢您对本文的深入了解和详尽解释。我发现重复内容对不同网站的影响不同。但是,我坚信这会削弱您在SERPS中的页面的效果。我认为您在本文中提到的一些要点加强了这一事实。

    我们目前运营着多个网站,其中一个是餐厅评论指南,很遗憾,该网站在许多类别下列出了同一家餐厅,因此,一些网址的外观没有动态变化,没有参数,但是网址干净’导致出现同一页面。

    我们的页面排名往往很好,但是为了扩大我们网站上的活动和排名(不仅在我们本地的地理区域内),而且在全球范围内,我认为处理重复内容是唯一的方法。

    正如您提到的,包括唯一的元/标题标签显然很重要。

    再次感谢您抽出宝贵的时间写文章,并且网站设计也不错,非常简洁,易于阅读。做得好!

  18. 嗨加文,

    感谢您的客气话。

    我同意–我相信,在大多数情况下,同一网站上的重复内容会削弱您的网页在搜索结果中的有效性。

    在扩展声音之前处理诸如重复内容之类的问题是一种非常合理的方法。

    我希望您在审核指南中提出解决该问题时满意的解决方案。 --

  19. 嘿比尔–

    因此,我在阅读这篇文章后发现,很多重复讨论都围绕着url参数展开。…许多往往与CMS和电子商务平台有关。

    任何人采取新的隐身发展来协助此类场所,所谓的“white-hat” cloaking methods?

    I’我很快将进行讨论,并希望参考本文以了解一些详细信息,因为我’宁愿分享爱。让我知道,我’d love your input.

  20. Pingback:SEO每日阅读-第67期«Internet Marketing 博客

评论被关闭。