XML网站地图之后的下一步:用户协助的Web爬虫?

分享是关怀!

Is 那里 a Future for User-Assisted Web Crawlers?

想象一下一个官方网投引擎,让人们教一个Web爬网程序如何导航充满javascript链接的网站页面,而其他页面通常只能通过选择或将文本输入表单来访问。

为什么官方网投引擎会让用户协助官方网投引擎爬网程序浏览通常对大多数爬网程序隐藏的页面内容?

用户在教网络爬虫?

以下是三个可以帮助教网络爬虫如何爬网网站的人的示例:

网站管理员 –由于javascript链接,下拉菜单中作为选项包含的链接以及其他只能通过表单访问的页面,官方网投引擎可能难以抓取页面。

虽然官方网投引擎一直在提供工具,试图使网站管理员更轻松地对其站点的页面进行索引,例如在 Google网站管理员工具,Yahoo Site Explorer和 网站管理员中心– Bing,这些工具中没有提供的工具可以解决该问题。

没有网站管理员提供其他方法来访问javascript或表单后面的页面,官方网投引擎很难为这些页面编制索引。如果网站管理员可以通过一种方法来训练官方网投引擎爬网程序,以访问官方网投引擎提供的网站管理员工具中包含的表单和javascript后面的页面?这样的用户辅助网络搜寻器可行吗?

网站管理员可以帮助教网络爬取程序有关最有效的方式来爬取其网站,按特定顺序浏览该站点的页面,填写该站点上的表格以及在一个站点中与该站点的页面进行交互。网站管理员打算使用的方式。

通过从这些活动中学习,可以捕获这些交互以创建用于爬网站点的规则。然后,网络爬网程序将来可以使用这些规则来爬网站点。

人工审核者 –有人手动检查网页的内容和结构以查看官方网投引擎是否可以更有效地改善官方网投引擎对这些页面的索引编制方式,可以为爬网程序设置规则以按照逻辑顺序跟踪链接或填写官方网投表单以最佳地找到相关内容网站上的页面。这些是可能与用户辅助的Web爬网程序有关的其他人。

内容订阅者 –RSS提要和mashup工具之类的程序可以将网站的内容带给有兴趣的人,而无需访问多个网页。

如果对此内容感兴趣的人可以训练程序来搜寻在诸如求职网站或旅行页面之类的地方找到的表单,或者将内容保留在表单后面的其他网站,则它可以帮助他们自动从站点获取Web内容并将其传递到他们。这是第三类,可以帮助用户辅助Web爬网程序。

集中爬行的问题

那里 are two common types of web crawling.

免费爬行 –当搜寻程序找到页面时,它将存储该页面和该页面’的地址或URL,并在该页面中找到的所有链接之后找到其他网页。

集中爬行 –抓取程序尝试仅抓取包含特定类型的内容的页面,或者“relevant” web pages.

集中式爬网有很多不同的方法,但是爬网器可能最终爬网无关的页面或错过相关的页面,原因有以下几种:

设计和结构的多样性 –网页的设计和结构之间存在很大的多样性和差异性,并且如果搜寻器在查找页面时遵循一组逻辑或规则,则在查看广泛的页面时确定其相关性可能不太准确页面范围。

链接链中不相关的页面 许多专注于爬网程序的假设是,包含特定类型内容的页面通常相互链接。那可能会被误导– if a crawler doesn’如果跟随的链接指向似乎未包含所寻找内容的特定类型的页面,并且某些页面沿包含该页面的链接链进一步相关,则可能会丢失相关页面。

页面只能通过表单访问 –有时有必要填写表格,例如工作清单官方网投表,以访问相关的Web内容,例如工作清单和描述。表单在一个站点之间的差异很大,甚至在同一站点内,如果爬网程序不’不了解如何填写许多不同类型的表格。

缺乏对受限内容的访问 – A site owner might not want pages indexed that are 相关的 to the focus of a crawl.

网络爬虫可以通过观看他人浏览站点中学到的东西:

以下是网络爬虫可以向用户学习的一些内容:

  • Which web pages are most likely to be 相关的
  • Which web pages are least likely to be 相关的
  • 如何最好地填写表格,访问动态内容
  • 如何以及为什么单击正在浏览的页面的特定部分,例如URL或按钮或选项卡
  • 如何从下拉菜单中选择值

Yahoo的一项专利申请更深入地探索了用户辅助的网络爬虫如何工作:

在用户协助下自动获取Web内容
由Amit Jaiswal,Arup Malakar和Binu Raj发明
分配给Yahoo
美国专利申请20090019354
2009年1月15日发布
申请日期:2007年9月11日

抽象

公开了一种用于在网站上执行活动的方法。一个用户 ’捕获网站上的浏览活动。用户’浏览活动包括在网页上粘贴标签和填写表格。分析捕获的活动的模式。

根据这些模式生成在网站上执行活动的规则。根据规则在网站上执行其他活动,并从网站中获取内容。所提取的内容用于各种Web服务应用程序,包括搜寻器。

Web爬网程序可以通过观看使用特定站点的人而学到的规则,可以由该程序扩展以在用户可能未执行的那些页面上执行其他活动。

用户辅助的Web爬网程序示例:

具有许多链接的网站分为三类:工作列表,与工作无关的部分以及指向该站点的链接’s homepage.

可能有人访问了某些工作清单页面,但不是全部。

爬网程序可以从那些对工作清单页面的访问中学习规则,以弄清楚如何访问所有工作清单页面。

结论

自动提取 专利申请提供了有关如何使用用户/站点交互来帮助官方网投引擎爬网程序解决我在本文开头提到的三种活动的更多详细信息:

  • 网站管理员培训爬虫​​如何找到应在其网站上建立索引的页面,
  • 人工审核人员,教爬虫如何查找页面,以及;
  • 向爬网程序显示内容的订户,他们想要订阅并向其发送更新的信息。

如果您想了解有关Yahoo可能如何尝试对Web上的内容进行索引的更多信息,Yahoo有一些较旧的相关专利申请可以与本文档中描述的方法一起使用,值得一看。集中爬网程序经常面临的问题:

I’我们已经看到许多人在Web上的不同地方提到,官方网投引擎可能正在通过使用工具栏和其他工具来查找要索引的新页面,从而了解要索引的新页面。’t indexed.

Yahoo的专利申请着眼于用户活动以查找新内容以在网络上建立索引,该假设假设使用工具栏来查找页面,这一步进一步展示了官方网投引擎如何教爬网程序为更多页面建立索引并创建网站索引的特定规则,注意人们浏览网络,与页面交互以及填写表单的方式。

允许网站管理员和想要订阅内容的人明确地教爬网程序有关页面的知识,可以减轻官方网投引擎的工作负担,并将其转移给可能使用那些官方网投引擎可能提供的服务的人。

这绝对是今天以外的一步’s XML网站地图.

分享是关怀!

关于14条想法“XML 网站地图s之后的下一步:用户协助的Web爬虫?”

  1. 很高兴知道这一点,如果真的要来的话,那将是非常艰巨的任务。是好是坏?我们’我必须先尝试使用它。 干杯!

  2. 嗨,达伦,

    我怀疑有一天我们可能会在官方网投引擎中看到类似的内容,网站所有者可以在其中提供有关其网站以及人们使用它们的方式的更多信息。一世’我不确定它是否会像上述专利申请所描述的过程一样透明。

    例如,如果您决定在您的网站上使用Google 分析工具(分析),那么您将向Google提供大量有关人们如何使用您的网站的信息。如果您向Google提供XML网站地图,’告诉他们应该在您的网站上索引哪些页面,甚至可以让Google知道最重要的页面以及该站点地图中这些页面上的内容更改的频率。 Google还可让您告诉他们,您是否喜欢带有或不带有网址的网址版本“www”.

    它不会’令人惊讶的是,一个网站管理员提供了更多的信息来帮助官方网投爬虫为其站点的页面编制索引。正如你所说,“Good or Bad? We’我必须先尝试使用它。” 🙂

  3. 嗨钻石,

    该专利申请中描述的方法是’还没有(我们’我将不得不等待,看看它们是否确实可用。

    但是,如果你没有’探索了Google,Yahoo和Microsoft提供的其他一些网站站长工具,这些工具值得一看。如果您通过Google验证了您的网站,它确实会提供一个列表,该列表被认为是可以提供信息的抓取错误。

  4. 嗨,威廉,谢谢您的回复。一世’我现在对Google XML的工作原理有了更好的了解。 ðŸ〜‰

    我只是用它,因为我的朋友告诉我它可以帮助改善’s ranking. Lol.

    干杯!

  5. 嗨,达伦,

    您’re welcome.

    Google XML网站地图不’实际上不会帮助您对页面进行排名,而是向Google提供有关您网站上存在的页面的信息,以使他们知道列出的页面是您希望他们尝试建立索引的页面。 Google告诉我们他们的 网站地图帮助 页:

    站点地图向Google提供了有关您网站的其他信息,补充了我们对网络进行爬网的常规方法。我们希望它们能帮助我们以更及时的方式抓取您更多的网站,但是我们可以’确保将您站点地图中的网址添加到Google索引中。网站永远不会因提交站点地图而受到处罚。

  6. Pheww **这是该职位之一’关于站点地图的深入信息。.William,我真的花了很多时间来掌握这一点。很高兴看到有人正在努力(至少探索)今天以后的事情’s XML sitemaps.. I’m sure, I’d立即继续访问您的博客ðŸ™,
    干杯!

  7. 嗨,威廉,

    谢谢回复

    我确实使用网站管理员’适用于Google,Yahoo和MSN的工具。虽然它的血统相当不错,但Google一直在不断对其进行更新,这对我们的网站管理员很有帮助。

  8. 嗨钻石,

    您’重新欢迎。我确实喜欢网站管理员工具,可以让您深入了解官方网投引擎将其视为网站页面上的错误。

    在涉及动态URL的Yahoo Site Explorer工具部分中,我们可以看到该专利申请背后一些想法的发展开始,在该部分中,网站所有者可以向官方网投引擎提供有关其使用的URL结构的信息。在他们的网站上。点击链接到“Dynamic URLs” from this 页:

    http://help.yahoo.com/l/us/yahoo/search/siteexplorer/

    有趣的是,他们是否会进一步开发这些工具以使其更加用户友好…

  9. 非常有见地的文章。

    Bill,我认为官方网投引擎的未来不是通过引导爬虫,而是用人眼代替爬虫。我认为,今天Google拥有了可以用人眼代替爬虫的技术(例如社交媒体网站Digg和reddit)。我们只需要等待,请参阅8- |

  10. 罗密欧你好

    我认为必须使用搜寻器来浏览网站并了解页面的含义以及它们可能指向的其他地方,但是我同意您的看法,官方网投引擎越来越关注人们在Web上的浏览和官方网投方式。我们面前还有一些有趣的时刻。

  11. 你好

    好贴。但是到目前为止,谷歌爬虫比人类更明智。他们可以识别网站中最敏感的部分。我认为这些明智的部分可以在通用航空中轻松识别。

  12. 一些有趣的观点,CAP…

    快速爬行网页,并试图了解数百万个网站的编码和结构差异是一项非常具有挑战性的任务。

    抓取工具会收集他们看到的URL,从页面中获取内容,并可能执行许多其他任务,例如查找重复内容,衡量页面是否为垃圾邮件等等。将页面分解为主要内容区域,页眉,页脚和侧边栏之类的部分,并尝试计算站点或多个站点的多个页面之间的关系也是他们可以做的事情。

    我认为Yahoo在专利申请中描述的方法背后的基本前提是合理的–如果可能,请让网站管理员提供帮助。

    安装类似Google 分析工具(分析)的工具可能会帮助Google了解网站页面的某些动态情况,这可能会对爬网页面和为这些页面的内容建立索引有所帮助,但是’不是每个人都在做的事情。

  13. Pingback:SEO每日阅读-第146期– Internet Marketing 博客

评论被关闭。