谷歌在重复内容过滤和新闻归因元标记上

分享是关怀!

如果您对Google如何解决网络上重复的内容感兴趣,今天’真是有趣的一天。

谷歌今天上午获得了一项专利,该专利描述了谷歌如何识别重复或几乎重复的网页,以及如何确定要在搜索结果中显示的版本以及要过滤的版本。它’这个过程可能与Google一段时间以来的使用情况接近。

但…

确定内容的来源可能是一个很难在Web上解决的问题。

如果Google的搜索范围较小,他们会仔细筛选并确定所有相关的网络发布者,并说服他们帮助确定哪些内容是原始内容,哪些内容是复制或重复的,那该怎么办?

为此,Google为Google新闻引入了一组新的“来源归因”元标记,使突发事件的发布者可以使用“original source”元标记,以及正在联合这些故事以使用“syndication-source”元标记。 谷歌控制哪些来源显示在Google新闻的搜索结果中,并在其页面中记录有关来源归因元标记的信息:

如果我们发现滥用这些标签的网站,则我们可以自行决定忽略该网站’的源标签或将网站从Google新闻中完全删除。

元标记看起来类似于Google的本示例’s页面上的归因标签:

<meta name=”syndication-source” content=”http://www.example.com/wire_story_1.html”>
<meta name=”original-source” content=”http://www.example.com/scoop_article_2.html”>

通过谷歌阅读’s help page for those tags, I 真实ized that this wasn’t the first time I’我们已经从Google那里看到了一些有关让发布者使用元数据来指示内容是原始内容还是联合组织的信息。

几年前的一项Google专利申请,标题为 代理商等级 尽管采用了更广泛的方法来使用元数据。除了将其限制在像Google新闻这样的小型搜索领域之外,它还可以应用于网络上发布的所有内容。我是在 谷歌’代理等级专利申请.

我没有’在我的“搜索引擎领域”文章中提到了Google如何区分原始内容和联合内容。来自专利:

[0023]签名可以是可移植的或固定到特定的网页或统一资源定位符(URL)。例如,一个联合专栏作家可能希望在创建时对列进行一次签名,并希望该签名跟随文档的发布位置。在其他情况下,对内容进行签名的代理可能希望防止其声誉被用来吸引访问其不受控制的站点的流量。

在任一情况下,与数字签名相关联的元数据可以指示与签名代理相关联的信誉是否可移植。例如,在一种实现中,通过将URL作为元数据包括在已签名的内容内,将签名链接到内容所位于的站点的URL。

代理排名方法取决于网络上的每个发布者都有唯一的数字签名,该签名可以使他们从一个站点转到另一个站点。

在您的博客上撰写博客文章–您使用数字签名对其进行签名。

在其他人身上写客串博客’s blog –再次,您使用数字签名对其进行签名。

在您的博客上发表评论’从未见过–您可以在上面附加数字签名。

您r “reputation” follows you around to different sources, and the ranking of things you write, whether on your pages or those owned 通过 others, can be influenced 通过 a 声誉 score for your work.

您 can also assign metadata, as noted in the passage above, to indicate the source of your material, and to prevent your 声誉 score from being used to rank other pages where your material may appear, such as upon a copy of something that you’ve written.

谷歌 News的来源归因元标记听起来像是Agent Rank方法的一种受限版本,处于更加受控的环境中,并且侧重于整个已知新闻源,而不是单个作者。

如果这些元标记在Google新闻上能正常运行,我们会看到类似的东西传播到其他Google媒体资源(例如网络搜索)吗?

它们是否是使用诸如特工等级之类的垫脚石?

无论是否存在,它们都可以帮助Google决定特定内容是原始内容,还是重复内容或几乎重复内容。

这使我回到了刚刚获得的Google专利中。该专利是:

由前任代表聚类
约阿希姆·库普克(David)
Assigned to 谷歌
美国专利7,836,108
2010年11月16日授予
提交日期:2008年3月31日

抽象

一种方法可以包括在当前的聚类操作中标识文档:

  • 将识别出的文档分配给一个或多个集群,
  • 为一个或多个集群中的每个集群选择当前的代表性文档,
  • 确定当前代表文件是否已被重新草稿,
  • 确定在先前的聚类操作中先前与当前代表文档相关联的先前代表文档,
  • 如果确定当前代表文档尚未被重新爬网,请在当前聚类操作中确定先前代表文档已分配到的一个或多个群集中的一个,
  • 将尚未重新爬网的与当前代表文档相关联的一个或多个群集中的一个与与先前代表文档相关联的一个或多个群集中的一个合并到一个合并的群集中,以及
  • 存储有关组合集群的信息。

专利没有’查明一种识别另一种重复或几乎重复内容的特定方法。取而代之的是,它在确定后就拾取,并将非常相似的文档聚集在一起。

然后,Google选择集群中的一个文档来代表其他文档。它将显示搜索结果中的一个,其余部分不显示。

如果需要,您可以查看一些已从搜索结果中过滤掉的页面。

你很有可能’在Google的一组搜索结果的末尾看到了这样的一条语句:

为了向您显示最相关的结果,我们省略了一些与已经显示的26个非常相似的条目。如果愿意,您可以重复搜索,并包含省略的结果。

在那句话中,“使用省略的结果重复搜索。”是可以单击以查看其他结果的链接。

谷歌如何确定哪个页面成为将在搜索结果中显示的代表页面?

根据这项专利,看来Google会寻找他们所说的东西“quality information.”

质量信息可以包括与页面相关的信息,例如:

  • 链接信息–关于指向页面或从页面指向其他页面或同一页面内的链接。
  • 文档的创建日期,
  • 页面(或文档)等级(在某些情况下可能是PageRank),
  • 锚文字信息,
  • URL的外观(简短的和/或基于单词的URL可能比长的和/或基于非单词的URL更好),
  • 人气信息,
  • 网站的质量,
  • 网站的年龄,和/或
  • 其他种类的信息

这些天’t表示有关特定查询的页面排名如何,但是,当有多个选择并且这些页面具有重复或几乎重复的内容时,它们用来决定在搜索结果中选择哪个页面。

当许多内容具有相同或相似的内容时,决定在Google新闻上显示的页面可能会进行类似的分析。

有了新闻归因元标记,Google似乎正在添加另一个信号,这可能会使确定变得更加容易。

如果这些标签在Google新闻中能正常运行,我们可能会看到类似Google的内容’将来将代理商等级应用到Web的较大部分吗?

It’s possible.

分享是关怀!

38想法“Google在重复内容过滤和新闻归因元标记上”


  1. *链接信息–有关指向页面或页面,指向其他页面或同一页面内的链接。
    *创建文档的日期,
    *页面(或文档)等级(在某些情况下可能是PageRank),
    *锚文本信息,
    * URL的外观(简短的和/或基于单词的URL可能比长的和/或基于非单词的URL更好,
    *人气信息,
    *网站的质量,
    *网站的年龄,和/或
    *其他种类的信息

    这听起来很像已经在网页中对网页进行排名的信息“normal” web search, so it’我们所做的不完全是’我猜以前不知道。

    有趣的部分– in my opinion –将是用于识别几乎重复的实际算法–如果我做对的话,那不属于专利的一部分(“该专利没有指出一种特定的方法来识别重复或几乎重复的内容。”)。据我所知,谷歌使用“some sort of”像在解释的带状疱疹 识别和过滤几乎重复的文档 来自Andrei Z. Broder,但是’我敢肯定他们不会全部使用…

  2. Pingback:Google关于重复的内容过滤和新闻归因元标记-网站站长论坛
  3. I like the agent rank approach, having a digital signature can 真实ly distinguish you from the rest and with it, you can leave breadcrumbs so that 谷歌 would have a hint of what’原来是你的,什么’s not. It’其实有点聪明。

  4. 好吧,我不确定在Google中确定哪个是原始内容’的首要利益。 谷歌有兴趣为“most important”页面或最相关。我们可能会争论–并且创作网站管理员肯定会–应该提供原始版本,但是重复副本可能对用户更好。例如,也许在同一页面上有其他相关信息,或者网站上有更多关于该主题的资源。它’一个有趣的问题。

  5. 同意,比尔·斯洛斯基(Bill Slawski)。 -而且’很高兴看到Google确实做出了一些努力来确定原始迭代。但是,使用链接作为其算法的中心部分,如果内容在具有更大权限的站点上发布,则第二个实例可能会胜过原始内容。例如,新站点的网站管理员在文章目录中重新发布自己的内容时就遇到了此问题。

  6. 嗨,帕斯卡

    谷歌可能用来确定一组相似文档中的哪个文档的信号列表中的许多元素很可能与用于确定应该哪个页面的算法非常相似会显示在搜索结果中,以及哪些页面可能被过滤掉。但是,那里’可能存在一些可能很重要的差异。

    The focus of the patents that I mention in the post, and the new source attribution metatags 真实ly aren’基于检测网页之间相似性的方法,即使这本身就是一个有趣的话题。

    I’我个人有一些页面包含我自己的原始内容,这些页面从搜索结果中过滤掉,并替换为重复我内容的网站。

    例如,其中一个博客首页的PageRank为5,已从Google过滤掉’的公共Bloglines页面的搜索结果,该页面包含该博客的文章摘录,PageRank为0。我碰巧在会议的第一排坐在“meet the crawlers”演示文稿,其中包括Ask.com,Yahoo,Google和Microsoft的代表,并设法提出了这个问题,并询问Ask.com代表是否允许索引这些页面是否不道德。 谷歌代表感到困惑,认为Bloglines提要是PageRank 0,而我的PageRank 5页面已从Google过滤掉’的结果。一周之内,Bloglines停止允许对这些类型的页面建立索引,而我的Blog主页开始再次出现在Google中’s search results.

    从那次经历开始,我’我觉得我个人投资于理解为什么搜索引擎可能会过滤掉他们不应该过滤的页面’并试图确保没有类似的经历’他人复制原始内容的其他创作者也不会发生这种情况。

    至于Google识别几乎重复内容的某些方法,Broder方法是 ’不好,但是有一些限制。我写了一篇关于Google的专利的文章,该专利在 用于检测几乎重复内容的新Google流程,但请注意,Google在某些情况下可能会选择使用基于带状疱疹的方法,而在其他情况下则会使用其他方法,例如Moses Charikar的方法。

    谷歌的另一篇论文,主题是’s worth a look is: 检测近乎重复的网页爬网 (pdf),探讨Charikar博士’的方法会更加充分,并以此为基础。

  7. 嗨安德鲁,

    我也喜欢特工排名方法。我看到的唯一问题是,有足够多的人注册数字签名以使其正常工作很有可能。

    使用Google新闻,您必须是一个经过批准的网站,才能包含您的故事,因此即使这些网站也可以清楚地标识出来’在组织层面上而不是个人层面上。在Google的背景下,诸如来源归因元标记之类的方法可能会更好地工作’Google的新闻搜索比座席排名系统更重要’因此,进行了Web搜索。

  8. 嗨M.-J.泰勒

    在某些情况下,您可能是正确的。我能想到的一个例子是,新闻报道是由发生新闻事件的当地人添加到报纸上的,而当地人的报道为故事增加了重要的细节。或者,当博客作者参与新闻报道或博客文章并添加大量详细信息时,创建的东西同样有价值。

    我知道这也是Google员工关心的问题,去年Google的一篇论文探讨了该主题: 有效地检测文本段的来源 (pdf)。

  9. 很棒的信息条例草案。我一直喜欢认为自己和其他致力于撰写原创和独特内容的人会有所收获。在线有如此多的文章微调者和非原创内容创建者,这太可怕了!

  10. [Quote]which allow the publishers of breaking stories to tag those stories with an “original source”元标记,以及正在联合这些故事以使用“syndication-source” metatag[/Quote]

    …right…这里没有滥用的可能性…

    如果此标记协议最终最终除新闻项目外还应用于普通搜索,那么我已经可以看到世界各地的初级网站管理员都在应用“original source”元标记其重复内容,以寻求作者身份。

    有趣 list of attributes used to track the 原始资料. I have been experimenting with 文章 marketing to see if my 文章 would/could outrank higher PR 文章 directories and have found that it seems to require a link to the original 文章 on my site as one of my two resource links…

    另一篇很棒的文章,比尔。像往常一样经过精心研究…:)

  11. 嗨,比尔,
    非常感谢您的回复。一世’我已经寻找了很长一段时间,我从来没有觉得这很接近“real”有关Google如何识别重复或接近重复内容的信息。一世’刚刚阅读了您有关它的一些文章,我对“检测网络爬网中的重复项”一目了然。

    特别是这部分很有趣,因为Google似乎很喜欢(imho):

    […]我们首先将网页转换为一组功能,每个功能都标记为
    与它的重量。使用标准IR计算特征
    标记化,大小写折叠,停用词删除,
    词干和词组检测。[…]

    Unfortunately I m not 真实ly familiar with the techniques that are mentioned. If there happens to be a time when you feel 真实ly bored, it would be great if you could shed some more light on this 🙂

    干杯
    帕斯卡

  12. 关于Google中的重复内容有一个长期存在的神话–我认为这一步骤将有助于澄清问题。它’知道有些公司为您旋转文章真是令人恐惧’快速从具有相同内容的文章目录中获取大量链接的如此糟糕的一步& anchor text!

  13. 嗨,MJ,

    我不’通常,建议网站所有者在自己的网站上发布其内容,然后出于这个原因将其重新发布到其他位置– there’对于过滤重复内容,搜索引擎将真正无法控制。通常,更好的方法是创建独立但相关的文章。

    例如,如果您在“土耳其感恩节的10个新思路,”在您的网站上发布有关“Great Ways to Start 您r Thanksgiving Celebration,”可以很好地介绍您的土耳其文章,也是将人们引向您网站的理想方法。

  14. 嗨史蒂夫,

    如果有人复制并重新发布您的内容,总是有可能使它在搜索结果中排名高于您,甚至可能导致您的副本从这些结果中被过滤掉。

  15. 嗨,迈克,

    谢谢。我明白你的意思。我在这里发帖时花了很多时间试图提出一些独特而不同的东西,’令人失望的是看到有人付出了我的努力,并通过将其发布在他们自己的网站上而对此表示赞赏。

  16. 嗨,马克,

    谢谢。一世’我不确定来源归因元标记本身是否可以在Google新闻之外按原样使用。一世’我不确定Google是否相信他们会在Google新闻的范围内正常工作。

    I’我对文章营销做了一些尝试,但是我’d诚实地说,不要试图与自己竞争太多。

  17. 嗨,帕斯卡

    您’重新欢迎。 “在Web爬网中检测重复项”中提到的那些技术是相当标准的信息检索方法。一世’我们在此写了一些文章,它们既是文章的重点,还是有助于解释专利中描述的方法的内容。

    以下是可能有帮助的博客文章或文章。

    在停用词上:

    谷歌 Stopwords Patent

    摘除时:

    用于Web搜索的上下文相关词干(pdf)

    关于令牌化(在URL的上下文中):

    搜索引擎会查看URL中的关键字吗?

    关于词组检测:

    I’在Google和基于短语的索引上撰写了许多文章。这里’s指向最新链接:

    谷歌化与再造’基于短语的索引

  18. 嗨达勒姆

    那里’对于重复内容而言,这一直是困扰Google的一个很好的理由。

    神话是Google不会因重复内容而对您的网站进行惩罚。但是,说这是一个神话就像说瑞士奶酪不是’充满了很多孔。

    如果Google将一个或多个站点标识为另一个站点的镜像,则很可能会停止抓取一个或多个副本。

    如果故意发现某个网站重复了内容以向搜索引擎发送垃圾邮件,则该网站将受到以下处罚:“spamming” the search engine, even though that method of 垃圾邮件 is duplicating content.

    如果有多个页面发布相同或几乎相同的内容,则它会’可能仅一页出现在搜索结果中,并且重复项或几乎重复项将从搜索结果中过滤掉。

    如果网站包含的页面非常相似,并且可能在非常有限的方式上有所不同(例如使用几乎完全竞争的模板,仅添加了几个关键字),则搜索引擎可能不会在搜索和索引这些索引上花费很多精力页面,并且可能专注于在网站上的其他地方或完全在其他网站上查找和爬网更多唯一的页面。

    如果页面没有’无论搜索结果是否出现在搜索结果中’被过滤或惩罚的’仍未出现在搜索结果中。如果您希望它显示在搜索结果中,它实际上不会’无论是说结果被过滤还是页面受到惩罚。它’还是没有办法。

  19. 又一次了不起的帖子…. i’成为您博客的粉丝…保持良好的工作!!!我可以将您的博客列为我曾经读过的有关SEO的信息最丰富的博客之一。

  20. 我的客户被迫使用可怕的CMS系统,这是由于缺乏通常的功能‘seo friendly’ versions don’t 真实ize just how lucky they’已被索引,因为相对于link-juice,主机/根/寄生虫域排在第一位。
    最终虽然’所有主观舞蹈SEOS被迫假装他们可以操纵。哦耶… links.

    但… Don’t stop writing or I’我没有理由使用狐狸。

  21. Pingback:复制属性标签的重复内容|禅宗
  22. 我想知道有多少出版商会使用此新闻归因元标记– wouldn’这样是否会使他们的故事出现在原始文章上的可能性降低?

  23. 我希望无论使用哪种方法,Google都能更好地处理重复内容。在过去,它似乎非常丰富,并且从未针对最相关的内容进行准确区分。很棒的报告。

  24. 这是一篇有趣的文章。听起来它最直接地应用于新闻内容和其他频繁重新发布的信息,但是我希望这也影响到大型SEO提供者。它’令人沮丧的是,看到大公司用设计不佳的着陆页来掩盖SERP房地产,而这些着陆页只是从公司重新发布而来’s official website.

    Thanks for the quality post. 有趣 analysis.

  25. 您在每个帖子中提供的信息就像是seo历史上的一个里程碑。.您怎么知道的那么多?

  26. 嗨丽莎,

    I’我不确定有多少发布商会采用这些新的元标记– and I haven’看起来不太努力,但我没有’没看到有人在不同的内容管理系统中为他们创建任何插件。

    我不’不知道这些可能有多少影响–Google已经确定要显示的新闻报道版本,以及哪些新闻不应该作为新闻报道的主要版本。

  27. 嗨,布法罗SEO,

    在选择要显示哪个版本的重复内容或几乎重复的内容时,Google面临许多问题。其中之一是Google不仅关注“relevance”做出决定。例如,如果两个页面具有相同的主要内容,但是一个页面具有较高的PageRank,则可能是显示的那个页面。

    目前,来源归因元标记仅适用于出现在Google新闻中的文章。它’很难确定它是否可能会很快被应用。

  28. 在寻找原始发布者方面表现出色 ….there are still those sites that scrape content and get crawled first. I had a run in with one of these website and 谷歌 could not figure out their content was all stolen. And they would rank above my post (the 原始资料).

    该网站甚至还包含原始链接,但我无法在排名中超越它们!最后,我不得不威胁要采取法律行动。

    我希望Google能够解决这个问题。我担心许多人不会使用新的元标记。即时抓取如何…这样可以缓解很多问题。

  29. 嗨,托马斯,

    不幸的是,有些网站使用的是抓取的内容,最终排名高于原始发布者的相同内容。一世’我自己经历过几次。

    这些新的元标记仅适用于Google新闻中包含和排名的网站,’这是一个很好的机会,我们可能不会看到它们的使用范围扩大到可与其他类型的网站一起使用,以及在Google中’的自然搜索结果。

    我不’认为即时爬网就足够了–如果页面是动态的–单击时创建的时间戳,与这些时间戳关联的时间戳显示了搜寻器的当前时间’的访问。首先访问的页面似乎是最旧的页面,即使它是副本。

评论被关闭。