Googlebot提取表格数据
网页上一页一页一页地填满数据。通常,数据的组织方式从一个站点和一个页面到另一个页面是不同的,并且包含在文本,图片,视频,音频,列,行,框架和许多其他格式中。
当一个 搜索引擎蜘蛛 进入网络上的页面,它将尝试浏览找到的所有文本,记下指向其他页面的链接,考虑图像的替代文本,以及查看元数据标签。
搜索引擎蜘蛛将确定搜索引擎是否应为页面内容编制索引,并确定接下来要跟踪的链接。
有时,搜索引擎蜘蛛会出于某种原因或其他原因而挑选出页面的一部分以进行一些不同的对待。它可能提取特定类型的信息,或寻找特定格式的数据。例如,Google可能会在页面上找到一个列表,然后将有关列表的信息发送到Google Sets的数据库(不再可用)。我在一篇有关 Google设定专利.
而不是寻找列表,如果Google专注于提取包含有意义数据的表数据(而不是可以在网页上用于控制部分或全部页面格式的表),该怎么办?
如果要处理所有这些数据填充的表,并为它们创建一个单独的数据库,并试图了解其中哪些表可能相互关联,该怎么办?然后如果它允许人们搜索这些数据,或者将这些表中的数据与这些人拥有的或他们在Web上其他地方找到的其他数据组合在一起怎么办?
为什么只看数据表?答案与表中数据的结构有关。
因为一个表的结构类似于下面的表,每列都有标签,所以搜索引擎可能会提取带有相关标签的表数据,并将其存储在数据库中,以后供搜索者访问。
顶级域名 | 类型 | Google结果 |
---|---|---|
.com | 商业的 | 6,930,000,000 |
。净 | 网络服务 | 1,980,000,000 |
.org | 非商业 | 1,940,000,000 |
。J.P | 日本 | 1,760,000,000 |
.de | 德国 | 1,660,000,000 |
.uk | 英国 | 770,000,000 |
.fr | 法国 | 583,000,000 |
.edu | 美国认可的高等教育机构 | 294,000,000 |
.ca | 加拿大 | 291,000,000 |
.gov | 美国政府 | 185,000,000 |
结构化和非结构化数据
在万维网上从一个站点到另一个站点时,您会看到各种各样的格式以及内容和信息的组织。
您在网络上找到的许多页面可能被认为包含 非结构化数据,信息不正确’严格遵守标签表和这些标签的值。但是许多网页也包含确实包含 结构化数据,它更有条理。如果可以将这些表从网页中删除并放置到索引中以比较其中的数据,可能会很有趣。
Google研究提取表格数据
Google研究人员的几篇论文探索了从Web上HTML表格中提取数据和该数据的标签的方法,以便可以通过关键字搜索这些表格中找到的信息,并以其他方式使用这些信息,例如将其用于根据从不同表格来源收集的信息创建混搭。
- 发现关系网 (pdf)
- WebTables:探索Web上表格的功能 (pdf)
在Web上找到的表中有很大一部分被排除在研究范围之外,例如很小的表,用于格式化页面,日历和其他用途的表。’涉及有意义的相关数据显示。
这项艰巨的任务,为搜索引擎如何抓取网页以查找信息以返回给搜索者提供了另一种思路。这里’对本研究中使用的数据的描述:
我们从Google的通用网络抓取中提取了141亿个HTML表,并使用统计分类技术找到了包含高质量关系数据的估计154M。由于每个关系表都有其自己的带有标记和类型化列的“架构”,因此每个此类表都可以视为小型结构化数据库。
生成的数据库语料库比我们知道的任何其他语料库大至少五个数量级。
这些表可在可自由访问的网页上找到,而不是隐藏在深度网络登录名和表单后面的数据表。该数据中包含的表格中可能出现的一个表格示例是有关美国总统的表格。
两篇论文之一的结论指出,表可能不是将来可能会使用类似方法探索的唯一结构化数据。
最后,我们还希望包括从HTML表格中获取的关系数据。研究人员研究的潜在数据源包括不使用表格标签的表格布局,深层网络数据库,带有社会标签的数据项,HTML嵌入列表和自然语言文本。
从表格和其他格式中获得的结构化数据(在网络页面上发现的许多不同的非结构化数据中)可能会导致Googlebot提取这些网页上的表数据。下次您在网上看到表格或为网页建立表格时需要考虑一下。
嗨拉贾特,
您’重新欢迎。感谢您分享您对这篇文章的看法。
如果有时间,这些论文值得一看。 WEBTABLE搜索系统可能会使用与您预期不同的方法’请深入了解,并进一步了解它。
例如:
这很有道理。我真的很惊讶,这从未发生过….
但是,必须将密钥放在上下文中,就好像城市是密钥一样,该页面仅应显示为[城市名称] + [上下文]参考。
我没有’没读过这篇论文,但我希望他们应该已经涵盖了。
感谢您让我们所有人保持最新
〜r
尽管表数据是结构化的,但我’我不确定用户如何找到他们’重新寻找。与伦敦,巴黎等在一起的桌子可能意味着任何事情。
嗨亚当
希望Google会在某个时间点将它作为beta项目发布Webtables应用程序,并且我们可以更好地了解查询的运行方式。
SIGMOD记录,2008年3月(第37卷,第1期)中的Google数据管理项目报告提到需要创建一个有用的查询工具来帮助搜索Webtable数据库的内容。
这些文件描述了webtable项目的第一阶段–提取信息背后的挑战。似乎他们有很多使Webtables数据库中包含的数据有用的想法,需要更全面地充实它们。
我希望看到本演示文稿中提到的与Webtables项目有关的演示,这些演示提示了查询Webtables中数据的方法:
http://mit.edu/~y_z/www/slides/webtables-presentation-google07.pdf
我不确定,但是总有一天,我们将不得不以这种方式来管理Google机器人。也许数据库的基本概念(主键/外键)应该存在于所有算法中。可能是我们必须成为我们网站的管理员才能阻止或取消阻止Google bot。我认为当前的站点地图架构不足以处理所有这些问题。
你好汤姆,
数据库管理的一些基本概念,例如分配主键,可能非常有用。我写了一篇关于Google试图在本地帖子中采用本地搜索的方法– Google提高位置信息准确性的方法
Google还提供了多篇关于从网页中提取有关命名实体的信息的论文,这些论文试图定义一个对象–特定的人,地点或事物,然后将页面或页面的一部分与该对象相关联。
而且Google有自己的一套 看门人 从他们发现有关这些对象的事实中尝试清除Web上的数据。
这是一篇有趣的文章,尤其是考虑到新的CSS标准似乎正在远离使用标准html表来布局网页和数据的情况。
随着越来越多的Web设计人员使用带有CSS的严格html来显示网页和数据,有趣的是,雅虎和Google等搜索引擎如何使用旧html表格式的信息,特别是如果索引的数据已经过时了。 html标记本身。
嗨人查找器,
自从表可用以来,使用表进行布局一直是人们一直在使用的一种技巧。’我自己做了几次以上。真的很好。
看起来最新CSS版本的建议确实强调要从表格中移开以进行页面布局-请参阅此页面 CSS中的高级布局 从2008年4月开始。
但是好像有 桌子的空间 在最新的CSS下。它们可能非常像 最新版本的CSS表。根据CSS标准,用于显示数据的表格似乎仍然是可以接受的做法。
那里’也讨论了使用 HTML 5中的表格.
论文确实描述了尝试不包括仅出于布局目的而存在的表的尝试,因此从表中提取的信息可能会继续有用。作者确实提到他们可能正在尝试从Web上页面的其他结构化部分提取数据。它’值得关注他们将来可能会想到的事情。 --
最近,我遇到一个声明,内容是国王,有效的SEO链接是王后。我只是想说结构化数据很重要。这不仅对于机器人,而且对于用户来说,使站点变得方便。所有网站都是为人而设。
嗨,Web开发,
I’我听说人们将这些内容用作国王的比喻,并讨论了链接的重要性。
I’我坚信上下文,而不只是满足–在正确的位置放置正确的链接,在正确的位置放置正确的单词,等等,对于搜索者和搜索引擎来说都很重要。
考虑页面的结构以及搜索引擎如何利用该结构的优势绝对是要考虑的问题。在正确的位置正确的结构对于搜索引擎可能具有重要的意义。
提醒我有关以下所有文章“neural computing”我们前阵子被水淹没了。当计算机可以处理人脑视觉存储的一小部分时,它将真正发生变化“the algorithm”.
您好Ed,
有趣的评论。我认为这项尝试在充满非结构化数据的网页上查找结构化数据的方法很有趣,因为它可以’致力于以一种有用的方式理解它在Web上找到的数据。这个想法与Google Sets有点相似,但是通过查看与表中找到的数据相关的标签来进一步了解这个概念,以查看这些标签之间是否存在关联。
I’我期待看到它的去向。
我认为,如果可以开发出某种方法来有效地区分出于布局目的而使用的表和数据表,这可能会非常有趣。有了Google,Google可以跨越当前当前浏览的网页数量,就可以从Wikipedia上每个类别的网络上收集数据样本。
伟大的Google思想机!
嗨,网页设计霍舍姆,
听起来确实像他们’我们做了很多实验来支持此过程,并且找到了一些方法来将表保留为仅用于布局。一世’我希望此网络表格搜索是我们在网上看到的可供公众使用的内容 Google实验搜寻 页面不久。