临时链接,避免爬网广告和会话跟踪链接

分享是关怀!

雅虎(Yahoo)最新发布的专利申请描述了几种方法,可以过滤掉一些可能会爬网的URL,以防止这些页面被索引并呈现给搜索者。

这些URL在专利申请中被称为瞬态链接,因为它们在每次访问之间都会发生变化,通常是因为它们是广告,其中包含带有跟踪代码的URL,或者包含用于跟踪访问者的会话ID。

提供了一种用于识别网页上的瞬时链接的方法。该方法确保不对临时链接进行爬网和存档,从而节省了用于爬网有效链接的资源,从而获得有用的信息。

识别网页上的传出链接,过一会儿,获得网页的新副本并识别出传出链接。比较各个链接组,并将未出现在两个链接组中的链接标识为瞬态。

连续爬网以识别临时链接
由Dmitri Pavlovski,Vladimir Ofitserov和Alexander Arsky发明
美国专利申请20070226206
2007年9月27日发布
提交日期:2006年3月23日

搜索引擎的工作分为三个主要阶段。首先涉及搜索引擎发出通常称为“爬虫”,“蜘蛛”或“机器人”的程序。这些搜寻器识别要在Web上建立索引的页面以及URL形式的那些页面的地址。

其他阶段包括对在爬网中的页面上找到的信息建立索引,以及响应搜索者的查询而在该索引中找到结果。如果爬网阶段可以变得更有效率,那么其他阶段的工作可能会更少,并且效率也会更高。

使网络爬网更高效

从主要搜索引擎抓取程序的工作方式是搜索引擎通常无法做到的’t share much about.

我们有一些提示,例如 斯坦福页面 列出在Google工作初期使用的资源,其中包括标题为 通过URL排序进行有效爬网。该论文讨论了搜索爬网程序如何在爬网页面时找到蜘蛛的文档地址时,使蜘蛛接下来可以优先访问哪些URL。

Yahoo过程的发明者在专利申请中描述了爬网过程的一些因素:

Web爬网程序使用多种爬网算法来确定网页的爬网顺序。例如,可以使用先进先出的链接方法。使用这种方法,可以根据链接在网页上的排列顺序对链接进行爬网。

再举一个例子“best first”可基于链接相关性选择要爬网的顺序,即在认为不那么相关的链接之前对被认为更相关的链接进行爬网。

他们还告诉我们,对于广告客户来说,在URL中包含有助于识别用户并跟踪访问者来源的信息是很普遍的。此类信息可能会出现在会话ID,跟踪URL以及导致URL从一个访问者更改为另一个访问者的其他技术的使用中。

由于更改,如果对这些URL进行了索引,则搜索引擎’的索引可能包含许多位于不同URL的页面,这些页面是彼此重复的,或者不应’首先已经被抓取了。我们被告知:

因为Web爬网程序的目的是发现包含对Web用户有用信息的页面,所以对唯一意义被用作唯一跟踪或会话标识符的每个瞬态链接进行爬网和索引将是效率低下且浪费资源。

该专利申请中的过程旨在避免那些类型的瞬时链接。

识别瞬态链接

在网页上,您可能会找到文本,指向其他页面的链接以及广告。这些指向其他页面的链接的URL指向带有要爬网和存档的有用信息的页面。广告可能是带有嵌入式跟踪URL的图像。当网络爬网程序跟随广告时’的跟踪URL,它被带到另一个Web页面,该Web页面很可能位于其他Web服务器上。

搜寻器从托管它的服务器请求网页,并提供该页面的HTML。它解析HTML,并从页面中提取所有URL的列表,并将其存储。然后发出“refresh”大约一分钟后,命令重新获得页面的新副本(专利文件告诉我们,“虽然发现一分钟可提供最佳效果,但可以使用任何时间长度。”

The 刷新ed copy of the page may differ from the first copy. The Web server may insert into the new copy a new advertisement with a new embedded tracking URL, replacing the old advertisement. The crawler makes another list of all URLs from the page and stores that list.

将原始提取的URL列表与新提取的URL进行比较。在网页的第二次爬网中消失的网页的第一次爬网中的URL被认为是瞬态的,对于爬网或包含到可搜索的索引中没有用。

在一个实施例中,出现在同一页面的两个连续爬网中的所有链接被标记为适合于爬网并包含在索引中,并且确实被爬网了。

分割页面以使将来的比较更快

与其比较页面的将来爬网中的所有链接,不如仅查看在先前爬网中找到了瞬态链接的页面部分,可能会更容易。该专利描述了如何将页面分成几部分:

可以使用文档对象模型树(DOM)分解来执行识别HTML部分的一种方法。 DOM树是HTML标签树的一部分HTML表示,其中的组标签如<table> have sub-tree tags <tr> and in turn </tr><tr>标签有叶子标签<td>.

通常,DOM树包含标签及其文本和属性。为了使用较少的爬网次数来标识瞬态链接,爬网程序最初可以多次获取页面,将包含该页面的HTML分解为DOM树,标识瞬态链接,并标识仅包含瞬态链接的瞬态DOM子树元素。

将来在爬网相同页面时,如果爬网程序发现该页面具有与先前爬网实例相同的DOM树,则爬网程序可能会将源自同一瞬态DOM子树的新链接视为瞬态,而无需另外获取相同的页。

网页的这种细分不是’t unique to Yahoo.

谷歌和微软都已经发布了专利文件和论文,描述了它们如何为不同目的分割网页的一部分。我写了一些关于Google可能在 针对本地搜索的Google和文档细分索引.

微软已经写了几种不同的页面分割方法,关于它们的最著名的文档可能是 VIPS:一种基于视觉的页面分割算法 (pdf)。

由于网站上的许多页面共享同一模板,因此这种细分可以帮助爬​​网程序忽略来自同一站点其他页面上同一区域的瞬时链接。

h2>Identifying Sites that Are Frequent Targets of Transient 链接

临时链接的URL也可能会被标识和收集,以便将来可以忽略它们:

根据一个实施例,为了减少连续获取的数量,搜寻器可以尝试识别经常用作瞬态链接目标的网站。

可以使用的方法包括通过使用上述技术来识别瞬态链接,并且进一步通过目标网站聚合所有链接并识别大多数链接是瞬态的网站。

爬网程序以后可以使用此类网站的列表来将所有将来与它们的链接标识为瞬时链接,而无需执行同一页面的其他提取操作。

I’我不确定这是否会对同样使用广告的网站上的页面的非广告链接产生影响。

分享是关怀!

关于9个想法“临时链接,避免爬网广告和会话跟踪链接”

  1. 通过可靠的关联性和重复的dom树引用Yahoo蜘蛛链接非常有趣。我今天注意到,我在主页上遭受重复内容的困扰,想知道搜索引擎是否根本使用HTML结构来查找重复内容。

    遗憾的是,没有太多的Web开发人员被要求在使用跟踪时向网站添加某些阻止方法。尽管我猜想其中一些URL可能是由关联公司优化的,但这可能不是一个好主意。

    PS – 林登 最近写了一个帖子,您可能会喜欢呼吁更多学术性的seo帖子。

  2. 大卫,您好

    很高兴看到这里有关Yahoo如何爬网页面的提示。瞥见搜索引擎在这样的领域中可能做些不同的事情是令人兴奋的。

    我确实写过一种方法,Yahoo可能会使用该方法来识别单个页面是否正在使用模板,以便对内容区域进行索引并检查重复内容与模板化区域稍有不同。它’s at – 雅虎研究着眼于模板和搜索引擎索引。不确定它是否适合您在首页中描述的情况,但可能值得一看。

    那里’关于付费链接的识别,网上有很多讨论。虽然这没有’具体来说,它确实显示出一种确定某些链接可能需要付费的简便方法。

    林登 的帖子不错。感谢您在评论中的客气话。 ðŸ™,

  3. 这似乎与定期内容更新鼓励蜘蛛更频繁地返回的观点相悖。–让我想知道这会对使用RSS feed和其他动态内容轮换以确保页面新鲜的网站产生什么影响…

  4. 嗨杰森,

    有趣的问题。专利申请中的方法是通过允许搜索爬网蜘蛛在选择要遵循的URL时做出更明智的决策,来尝试使爬网网站更高效。

    从文档中的某些陈述中可以看出,已经对该过程进行了一些重要的测试,并且他们曾经提到,当第二次爬网大约在一分钟后,它可能会最好地工作。

    定期更新内容的网站可能无法快速更新内容,但是有些网站可能会看到这样的快速更改(例如Digg的首页),’在此过程中不能很好地工作。

    您提到的流行概念可能会发生 –如果某个网站的更新速度非常快,则很可能是如果搜索引擎认为它是一个足够重要的网站(通过诸如网页排名或指向该链接的链接数之类的流量,或者通过基于用户活动的流量估算值)通过工具栏或ISP日志或搜索结果访问),以便它们将更频繁地发送蜘蛛。

    我认为,对于大多数网站和大多数链接,此方法可能会很好地工作,并且赢得了’干扰了蜘蛛对新内容编制索引的重新访问率。对于极少数快速更新的站点,可能需要进行某种特殊处理,以使快速更新的站点上的链接不存在。’如本专利申请中所述,t与链接是瞬态的页面混淆。

  5. Pingback:本周搜索引擎优化-9/28/07 |范博客

评论被关闭。