Microsoft为规范URL创建规则

分享是关怀!

一个网站上的单个页面可能有多个URL,当官方网投引擎尝试对该站点上的页面进行爬网和索引时,可能会导致问题。

如果官方网投引擎可以找出关于页面的这些不同版本的URL的规则,并仅将一个版本的URL(规范URL)识别为不同版本的索引,则可以节省时间和处理时间通过仅对一个版本进行爬网和编制索引来增强功能。

A “canonical”如果可能有多种方法来表示页面的URL(或地址),则URL的版本将是标准的单一版本。

网络爬虫在给定的时间内只能下载有限数量的文档或网页。因此,与下载由多个不同URL寻址的所有基本上相同的文档相反,如果网络爬虫能够在引用基本相同的页面的多个不同URL中识别URL等效模式并且仅下载一个文档,将是有利的。

以上引用来自微软的一项新专利申请,该专利旨在使爬网和避免相同的索引页面或几乎相同的索引检索变得更容易且计算量更少。

推断统一资源定位符(URL)规范化规则的系统和方法
由马克·亚历山大·纳约克(Marc Alexander Najork)发明
分配给Microsoft
美国专利申请20060218143
2006年9月28日发布
提交日期:2005年3月25日

抽象

检测到引用相同网页或其他Web资源的不同URL,并且该信息仅用于从网站下载网页或Web资源的一个实例。比较从Web服务器下载的所有网页或Web资源,以识别哪些资源实质上相同。一旦找到具有不同URL的相同网页或Web资源,然后将分析不同的URL,以识别URL的哪些部分对于标识特定的Web页面或Web资源必不可少,以及哪些部分不相关。为每组基本相同的网页或网络资源(也称为“equivalence class” herein), these per-equivalence-class rules are generalized to trans-equivalence-class rules. 那里 are two rule-learning steps: step (1), where it is learned for each 等价类 what portions of the URLs in that class are relevant for selecting the page and what portions are not; and step (2), where the per-equivalence-class rules constructed during step (1) are generalized to rules that cover many 等价类es. Once a rule is determined, it is applied to the class of web pages or web resources to identify errors. If there are no errors, the rule is activated and is then used 通过 the web crawler for future crawling to avoid the download of duplicative web pages or web resources.

该文件指出它没有’它涵盖了爬虫如何处理基本上相似的页面的所有方面,但是是对该主题的介绍,这将使官方网投引擎仅索引来自站点的文档或网络资源的一个实例,或对该实例的规范URL页。

确定两个页面是否基本相似时可能涉及的一些测试:

  • 校验和
  • 词法比较
  • 其他

有关这些方法的详细信息’t描述了,aren’尽管是本文的重点’重要的是要注意,这些比较会查看文档本身,然后在找到基本相同的页面时,此过程将开始查看那些相似页面的URL,以查看它们可以做什么。它看起来像:

  1. 页面完全相同吗?
  2. 两个页面上的非标记单词(与HTML标记相反)是否相同,或者;
  3. 两个页面是否非常相似(例如,共享其内容的预定百分比,例如其内容的95%)。

当找到具有不同URL的相同或几乎相同的页面时,将分析不同的URL,以标识URL的哪些部分对于标识特定的Web资源必不可少,以及哪些部分不相关。

这样做是为了查看是否可以为站点制定规则,并将其应用于站点或服务器上的其他页面。这些与该站点或服务器上的其他页面一起进行了测试,如果没有错误,则将来网络爬网程序将使用这些规则。

然后,对已确定为基本相同的网页URL进行重复模式分析。

专利申请示例

以下URL均指向同一页面:

http://www.marketwatch.com/news/yhoo/story.asp?source=blq/yhoo&siteid=yhoo&dist=yhoo&guid=%7BD426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?source=blq/yhoo&siteid=yhoo&dist=yhoo &guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?siteid=yhoo&dist=yhoo&.uid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?source=blq/yhoo&dist=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?source=blq/yhoo&siteid=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?source=blq/yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?siteid=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?dist=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?source=blq/yhoo&siteid=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?source=blq/yhoo&dist=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?siteid=yhoo&dist=yhoo&puid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/yhoo/story.asp?guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?source=blq/yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?siteid=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?dist=yhoo&guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

http://www.marketwatch.com/news/story.asp?guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F16C8%7D

识别模式

URL具有许多组成部分。其中一些需要标识页面,而另一些则是可选的并且与联合品牌相关。

如果将可选组件放在方括号中,则URL可以描述如下

http://www.marketwatch.com/news/[yhoo/]story.asp?[source=blq/yhoo&]- [siteid=yhoo&][dist=yhoo&]guid=%7B5D426EE8%2DBB62%2D457C%2DA82E%2D05EE3F6F- 16C8%7D.

此类模式在站点之间往往有所不同,因此必须针对每个站点制定规则,而不是通常针对所有站点制定规则。

创建规范化规则

可以基于这些模式确定URL规范化规则,以便仅通过一个规范的URL识别基本相似的页面。已转换为相同规范化URL的两个URL应该引用基本相同的网页。

测试规范化规则

下一步将是测试规则。

测试可能包括,例如,将规则应用于各种URL,然后确定被预测具有基本相同内容的URL实际上是否基本相同。

如果对任何URL的测试失败,则该规则将被拒绝。

如果测试成功通过了超过一定阈值的URL,并且没有通过任何URL失败,则该规则被标记为已接受,随后用于规范Web搜寻器处理的URL。该规则可以应用于后续的网页爬网,以减少下载的基本相同的页面的数量。

重叠是确定页面是否基本相同的许多方法之一。

该专利申请指向该文件,以帮助描述如何发生瓦楞纸: 几乎重复的网页簇的演化 (pdf)该专利的发明人Marc Najork是该论文的作者之一。

示例重排算法可以将每个文档的向量减少为15“megashingles”; two documents that are 95% similar have a 90% probability of having at least one megashingle in common, while documents that are merely 80% similar just have a 2.6% probability of having one or more 大型带状疱疹 in common. Shingling provides a convenient way of testing whether two documents are near identical.

其他可能的方法:

  1. 使用Unix工具“diff” ,
  2. 计算从网络服务器下载的每个页面的哈希值(例如,MD5校验和或Rabin指纹),
  3. 将每个页面缩小为一组“rare”该页面中出现的字词,并且与各个页面中的字词匹配,并且;
  4. 其他技术。

该专利非常详细地描述了如何识别基本相似的页面,然后如何将这些页面的URL进行比较以得出模式,然后制定一个规范的URL规则。

结论

我写了一篇关于不久前一篇论文中描述的类似工作的文章 用相似的文本(DUST)解决不同的URL。它描述了一种算法,该算法试图识别站点上不同URL上的基本相似的页面,并且由现在在Google的Ziv Bar-Yossef共同撰写。

理想情况下,网站所有者或构建者将尝试减少或消除页面尽可能多地显示在同一网站上的多个URL下的可能性。在理想的世界中,这是最佳做法。在我工作的一个相当复杂的网站上,由于使用了内容管理系统的一个怪癖,Google在不同的URL下为单个页面编制了15,000次索引。那’这不是您想要在网站上发生的事情。

尽管这样做有助于识别页面的单个规范URL,但当指向一个以上URL的页面有帮助时,它将控制哪个URL被视为规范URL的控制权交给官方网投引擎和一个自动化程序。如果作为网站所有者或构建者,您无需官方网投引擎来确定页面的规范URL,那么您可以控制页面所使用的URL版本(如果官方网投引擎接受您的规范URL为正确的页面。)

分享是关怀!

关于2个想法“Microsoft为规范URL创建规则”

评论被关闭。