How a Search Engine May Identify 不良的 Web Pages By Analyzing Inlinks

分享是关怀!

期限“不良网页”雅虎(Yahoo)今日发布的专利申请中使用的“网页”是指基于指向这些网页的链接而在搜索结果中排名较高的网页,仅是为了提高其在特定查询中的排名,即使这些网页可能与查询的相关性不高有关条款。

“Undesirable”似乎表明这些是Yahoo所没有的页面’想要在他们的搜索引擎中在搜索结果中排名很好。

那么,Yahoo(以及可能的其他搜索引擎)会根据其到该页面的链接来查看该页面以确定该页面是否不受欢迎吗?

分析内联操作

当搜索引擎响应查询而向搜索者显示页面时,这些页面将按顺序显示,以显示相关性,重要性或质量的组合。

搜索引擎确定页面可能有多重要的一种方法是基于链接到该页面的页面的数量和重要性。搜索引擎也可能会注意链接中使用的文字,通常称为“anchor text,”同时确定页面与某个关键字词或短语的相关程度。

但是那里’一个问题是过于依赖指向页面的链接来确定页面的相关性和重要性。通过为链接提供这种价值,搜索引擎已将链接变成一种商品,该商品可以确定页面在搜索结果中的排名。

创建指向页面的许多链接并不是为了将访问量带入页面或在特定上下文中引用页面,而仅仅是为了提高页面排名,并且可能导致“人工推广的网页”即使这些页面与搜索者的查询不太相关,也可以在搜索结果中排名很高。

针对此问题,搜索引擎可能会不同地权衡某些链接的价值。 Yahoo的专利申请描述了搜索引擎如何区分指向页面的链接(也称为““inlinks”根据对该链接的信息的统计分析得出该页面。

专利申请是:

Detection of 不良的 Web Pages
梁锦松,李端,Dmitri Pavlovski,Su Han Chan和Kostas Tsioutsiouliklis的发明
分配给Yahoo
美国专利申请20100094868
2010年4月15日发布
申请日期:2008年10月9日

抽象

一种用于人为地检测资源促进的系统,包括:

搜索引擎,可为一组传入的链接建立索引(“inlinks”)引用资源,

a log module coupled with the search engine and configured to store log data associated with the set of 内联,

a partitioning module coupled with log module and operative to partition the set of 内联 into a plurality of groups of 内联 based on at least one partitioning scheme,

a statistics module coupled with the partitioning module and operative to compute a statistic associated with the 内联 within each of the plurality of groups of 内联, and

计算模块,其与统计模块耦合,并且可操作为处理与多个内联组中的每个内联组的内联相关联的计算出的统计量,并计算与内联组相关联的度量,其中该度量指示值分布的均匀性水平多个inlink组中各个计算出的统计数据的多少,以及搜索引擎将根据搜索查询生成的搜索结果列表放置在基于度量的模式中。

在分析指向页面的链接以尝试识别链接的人为操纵时,搜索引擎可以查看与那些链接相关联的信息,以尝试查看是否存在与那些链接相关联的任何不自然的模式。

搜索引擎可能会查看以下信息:

  • 每个inlink的源的Internet协议(IP)地址段
  • 每个inlink的来源的域名
  • 与每个inlink关联的顶级域名,例如“.com” or “.edu”或国家或地区代码顶级域名
  • 每个链接中使用的书面语言(例如,英语,法语或德语)
  • 与每个inlink的来源相关联的地理区域
  • 与每个inlink的源关联的网络路由组
  • 每个inlink中包含的锚文本(即可点击文本)

专利文件告诉我们,可以基于基于链接的排名方法(例如PageRank)或对新链接赋予更多权重而不对较旧链接赋予更多权重的系统或某些其他类型的算法,为页面赋予质量或重要性排名得分。

如果出现异常模式,似乎表明仅是为了增加该页面的排名而对页面的链接进行了操纵,则有关随时间指向该页面的链接的信息的统计分析可能会导致该页面的排名下降。

结论

I’已经撰写了有关主要搜索引擎的许多其他专利和白皮书的文章,这些文章可以在我的类别中找到 网络垃圾邮件,但是此Yahoo专利文件提供了有关某些特定类型信息的详细信息,Yahoo可能会分析这些信息中的许多论文或专利文件都没有’t mentioned.

在查看指向页面的链接时,Google和Bing可能会执行某些类似类型的分析。

分享是关怀!

23想法“How a Search Engine May Identify 不良的 Web Pages By Analyzing Inlinks”

  1. pingback: How a Search Engine May Identify 不良的 Web Pages By Analyzing Inlinks - Webmaster Forum
  2. 再一次,我们看到了搜索工程界对于网络垃圾邮件的无能为力。该申请于2008年10月提交,但它提供了对“link farm”在[0015]节中。他们所描述的是“link network” (a network of sites that are used to boost the importance of sites outside the network). A 链接农场 is a group or network of sites that all link to each other.

    链接农场唐’t have “sole purposes” —根据定义,它们不能有唯一的目的。

    该专利申请的关键要素之一似乎是对反向链接行为的熵分析—Web文档如何随着时间累积链接(或链接出)。他们可能使用季度数据点来分析链接趋势。

    当然,即使他们在2-1 / 2年前这样做,也可以用其他方法代替此方法。

    但我经常指出,人们应该研究他们的链接资源(以及正在推广的目的地)如何 表现 因为搜索引擎会查看网站行为。

    该专利申请强调了这一点。

  3. 嗨,迈克尔,

    The definition of a 链接农场 in the patent was pretty much off base, and the authors of the post seemed to have a very narrow and negative view of SEO, even though Yahoo practices SEO on their own sites, participates in search marketing conferences, and have even published at least one patent on how they would automate aspects of search engine optimization.

    我同意您的看法,该专利确实强调了人们应该更加关注和关注指向其页面的链接,以及他们如何以及在何处获得其站点的链接。

  4. 凯文,你好

    看到写此专利的人发现的模式类型的一些示例将是很有趣的,包括有关特定顶级域的链接增长的示例,但它们并没有’包括任何。人们注册.edu和.gov网站的能力受到限制。不幸的是,许多Web垃圾邮件和操纵性链接最终都停留在旧的留言板上以及.edu域中其他地方’•非常仔细地监视或控制。

  5. 嗨安德鲁,

    我怀疑这种分析已经进行了一段时间。搜索引擎确实收集了大量有关Web的数据。最大的困难可能是确定哪些信息可能最有助于查找操纵性链接。我们在专利申请中被告知的信息种类可能是他们所看的东西,但我想他们会’ve也探索了许多其他问题。希望它将有所作为。

  6. 这些是关于SEO的疯狂迹象。您’无论如何,我真的在猜测算法是如何表现出来的,这样您就可以制定策略,而SE可以在您有可用计划时就将脚本翻转过来。疯了

  7. 至少可以说有趣的文章。我知道搜索引擎正在积极寻求减少方法“link spam”。但是我对信任专利有些不安全…至少在食谱方面。可以这样想:如果可口可乐已为可口可乐申请了专利,那么您认为现在有人可以复制吗? Isn’算法很像食谱吗?一世’我对专利法之类的东西不太了解,所以我可能会偏离基础。

  8. It’对我来说很有趣的是,该专利的作者会对搜索引擎优化持负面看法。我想,随着成千上万的SEO不断提出将客户推向SERP最高职位的创新方法,我们可能会迫使搜索工程师不断调整和创新他们的算法,从而使他们‘product’越来越好。再说一次,鉴于该专利概述了抑制无机链接价值的方法,我想’毫不奇怪,它的作者会对SEO持负面看法 …

  9. 是的,我已经看到了许多旧的.edu论坛和FAQ页面,这些事实极大地散布了这些内容。他们只是’就像我们其他人一样精通技术。

  10. 嗨Chattaranga,

    无论搜索引擎如何改变其使用的算法,其最终目标都不会’t waver much –他们想尝试找到与搜索意图相匹配的最佳网站。

    围绕此策略和链接建立策略,不仅可以帮助站点排名,还可以提供有意义的流量,并且您将更容易受到搜索引擎算法变化的影响。

  11. 嗨miracleman12,

    搜索引擎主要是为了保护其知识产权而申请专利,但他们没有’对他们可能拥有的每个想法都申请专利,而他们却没有’提供他们实施的已获专利的所有细节。如果你不这样做’不要相信专利,至少要相信像这样的专利背后的明确信号– search engines don’喜欢仅用于操纵搜索引擎排名的链接。

  12. 你好乔纳森,

    专利文件描述了一种修补漏洞的方法,该方法是为存在一些缺陷的页面分配价值。基于链接的排名系统很容易以其发明者应有的预期方式受到攻击,’t. I’我不主张使用滥用这种排名系统的方法,并且我喜欢他们提出的许多想法,这些想法用于识别仅为操纵此类系统而创建的链接。

  13. 凯文,你好

    I’我不确定我们在旧版.edu讨论板上和其他地方看到的那种链接滥用现象是由于缺乏知识以及缺乏对这些资源的适当管理所致。

  14. 嗨,Mahesh,

    我也从垃圾邮件站点获得了很多引用。有时候他们不是’甚至没有真正的引用,但格式与它们相同。有时它们是引用链接,其中有一个原始网站链接到我,并且他们抓取了该站点,并在发布时向我发送了引用引用。我有时不’甚至无法获得原始版本的引用。

    当我看到它们时,我非常努力地不发布它们。一世’通常,我会从其中之一复制一段文本,将其放在引号中,然后进行搜索以查看我是否可以找出其原始来源。

    如果它’来自某个网​​站的引用’几乎只是垃圾邮件,我通常只是将其删除。

    该专利来自Yahoo,而不是Google,但在一定程度上您确实担心。努力吸引和获取合法的非垃圾邮件来源的链接。您所做的工作越好,指向您页面的链接对您的伤害就越小。

  15. @法案,

    引用如何运作?如果我们删除这些引用,它将从我们的页面中消失,但是将出现在垃圾网站上,对吗?韩元’是否被Google视为大众博客评论?因为尽管它仍然是垃圾邮件,但仍可充当我们网站的反向链接。

    顺便说一句,您应该真正添加一个“订阅评论”插件以通知我们后续评论。

    谢谢!

  16. 嗨,Mahesh,

    引用通过使网站链接到您的网站来对您的网站执行ping操作,以使其知道有人链接到该网站。他们的网站需要设置为发出该ping,而您的网站需要设置为接受引用,并在您的网站上留下通知。我们可以审核引用,并在发布之前将其删除。该链接仍然存在于另一个站点上。既然没有’没有发布在我们的网站上,’t linking back.

    我有一个订阅评论插件,但是删除了它,因为我没有’不喜欢它从我的网站发送电子邮件的方式。一世’我一直在阅读有关电子邮件过滤程序的工作方式,并且担心如果我使用类似的插件,它们将如何处理我网站中的电子邮件。

评论被关闭。