Microsoft授予基于视觉的文档分割(VIPS)专利

分享是关怀!

基于视觉的文档细分如何工作?

网页可能很乱;他们可以在页面上拥有多个主题,并使用围绕这些主题的模板,从而对内容的内容几乎没有任何意义,其中包含链接和标签,广告和样板,版权和其他声明。

由于主题多种多样,搜索引擎和搜索者可能不容易对这些页面进行爬网,记录,索引和查找。

当我们考虑搜索引擎及其运作方式时,我们通常会将其分解为三个主要部分–在旧页面上发现新页面和新内容,按照显示对重要页面和独特内容的偏好的规则对这些页面上的内容建立索引,并根据搜索结果及其搜索意图(或至少匹配其关键字)向搜索者及其相关信息提供有意义的信息他们输入搜索框的查询。

我们通常不’不要将搜索引擎视为页面的索引部分,这些信息可能与非常不同的主题并排存在,但是很多页面都是这样。

但是我们’我们从搜索工程师那里看到的白皮书和专利申请中有一些迹象表明,他们可能会尝试使用基于视觉的文档细分过程来细分和捕获有关同一页面上不同主题的信息。

基于视觉的文档分割

微软的研究人员一直致力于理解和索引页面的不同部分,以及几年前的几本白皮书(2003年)。–2004)告诉我们这种方法:

第二份文档的摘要为我们提供了一个不错的摘要:

提出了一种基于视觉表示的Web内容结构分析方法。这种结构可以使许多Web应用程序(例如信息检索,信息提取和自动页面适应)受益。

本文提出了一种自上而下的,与标签树无关的自动方法来检测Web内容结构。它根据用户的视觉感受模拟用户如何理解Web布局结构。

与其他现有技术(例如DOM树)相比,我们的方法独立于HTML文档表示形式。即使HTML结构与视觉布局结构完全不同,我们的方法也可以很好地工作。几个实验证明了我们方法的有效性。

在最简单的层面上,这种基于视觉的文档分割方法根据我们看到页面的方式将网页分为不同的含义,包括文本和图片,换行符和空格以及其他分隔符文字和图片等内容。

可以将页面的这些不同部分识别为页面中可能包含不同含义的部分,有时彼此之间完全不相关。当搜索引擎抓取页面并决定为其在该页面上找到的内容建立索引时,了解这些块的存在可能对搜索引擎有所帮助,以便搜索者可以找到其包含的信息。

微软本周获得了基于视觉的文档分割(VIPS)的专利,因为该文档可能会在文档检索期间使用。给戴维·哈里(David Harry)戴上帽子的提示,后者向我指出了这项专利。我发现了与此相关的另一项专利,并停止寻找更多专利。一世’可以在另一篇文章中找到该专利,但是首先指出该专利是有道理的,因为它着重于较早的步骤–将页面分解成块。

基于视觉的文档分割
温继荣,俞世鹏发明。邓彩,马伟英
分配给Microsoft
美国专利7,428,700
2008年9月23日授予
归档:2003年7月28日

抽象

基于视觉的文档分割可识别文档语义内容的一个或多个部分。通过识别文档中的多个可视块并检测多个可视块的可视块之间的一个或多个分隔符来标识一个或多个部分。

至少部分地基于多个可视块和一个或多个分隔符来构造用于文档的内容结构,并且该内容结构标识文档的语义内容的一个或多个部分。使用基于视觉的文档分割获得的内容结构可以在文档检索期间随意使用。

We’幸运的是,我们拥有上面列出的两篇论文,以帮助我们简化专利的某些语言,并提供一些非常有用的插图。

I’因此,我将略过该专利中的许多细节,并因此尝试使这篇文章相当简单。

可视地查找块和块的分隔符

基于视觉的文档细分的第一步之一是根据文档中的视觉提示尝试将页面分为视觉块,例如:

  • 字体大小和/或类型
  • 字体颜色和/或背景信息
  • HTML标签类型,以及
  • 其他

一旦确定了页面各部分之间的差异,便会寻找它们之间的视觉分隔,例如:

  • 文档中的行
  • 文件中的空白
  • 不同块的背景颜色不同,并且
  • 其他

基于标识的块和分隔符,创建页面的内容结构。

该专利详细介绍了如何使用页面的HTML来可视化页面的结构,使用诸如文档对象模型之类的东西来帮助理解页面的各个部分以及基于视觉提示(例如字体大小和颜色,背景颜色等等。

程序员和浏览器使用文档对象模型来了解页面上不同的HTML元素(例如表格和段落以及图像和表单)如何相互关联以及文档的整体结构。网页就像是一棵树一样表示,每个HTML元素都是该树上的分支或叶子。这些元素每个都有一个名称,并且在页面上使用类似javascript的用户可以使用这些名称来影响那些命名的元素。

基于块的文档检索

想象一下一个搜索索引,它不仅指示在文档上找到单词的位置,而且还指示更精确的级别–在页面上找到的块。

搜索引擎可以对内容块进行排名,以查看它们与查询的匹配程度,而不是对要呈现给搜索者的页面进行排名。

然后可以基于块排名创建文档排名。可以使用排名最高的块的排名,或者可以使用所有块的排名的平均值,也可以使用块的排名组合,或者使用其他方法。

基于视觉的文档分割结论

I’虽然跳过了专利和论文中描述的大量细节,但是从该专利中获得的最重要的收获之一是,网页上的内容索引可能基于页面的一部分,而不是整个页面。

该专利最初是在2003年申请的,此后,基于基于视觉的文档分割和将页面分成多个块的想法,Microsoft发表了更多论文。如果你’d想进一步探讨该主题,这里有一些值得一看的论文:

分享是关怀!

18个想法“Microsoft授予基于视觉的文档分割(VIPS)专利”

  1. 罗伯特

    我认为这些论文可能会有所帮助。 ðŸ™,

    谷歌如何说可能会使用细分的简单说明(针对本地搜索的Google和文档细分索引)

    纽约月刊每月都会在网络上发布其页面,每个月他们都会在纽约不同街区的餐馆发表文章。这篇文章在一页上,从告诉我们有关附近的社区开始。然后,它有一个关于每个餐厅的段落,该餐厅的名称在该段的开头是粗体,在该段的结尾是该餐厅的地址和等级。

    谷歌会在每个评论段落之间看到空白,在开头看到餐厅的粗体名称,在结尾看到地址和等级。它根据页面的布局,粗体字体和每个段落中包含的数据类型对页面进行细分。它接受这些评论,并在本地搜索中将它们编入索引,以作为每个餐厅的评论。

    Microsoft可能会在对象级别排名中对产品评论进行类似的操作。它将查看可能包含多个摄像头评论的页面,并根据所看到的摄像头类型以及页面布局(包括不同类型的字体,页面背景以及不同评论之间的分隔)对页面的各个部分进行细分。 ,使用VIPS。然后,在“对象级别排名”中,它可能会创建一个数据库,其中包括在不同页面上找到的有关同一型号摄像头的细分,以及与该对象(或摄像头)相关联的属性,例如价格,缩放级别以及与摄像头相关联的其他功能。当某人搜索相机时,它可能会提供许多信息,这些信息取自不止一页,但它可能链接到信息最丰富的页面或有关相机的页面(或提供许多页面,并让搜索者确定哪些页面)他们想看看)。

    我希望这些例子可以使事情变得更清晰,而不是更加复杂。

  2. 好吧,我们花了很长时间尝试告诉人们他们应该优化每个页面,而不仅仅是接受网站已经优化… now we’是否必须优化页面的各个部分?我不知道这将如何工作。可能在页面上有3个好主题,这些主题内的链接现在将具有主题权重和链接权重。如果是这样,那么真正的赢家将是链接到的页面。

    但是,随着互联网变得如此杂乱,现在是否可以为我们提供更杂乱的结果,让我们想知道为什么我们确实被发送到了该页面?

    哎呀,也许我’在此基础上,m远。但与一切一样’s not what you’有,但是你要怎么做。希望微软能够合理地使用它。

  3. 罗伯特你好,

    谢谢。很好的问题。

    该VIPS或“对象级别排名”背后的想法之一是,页面可能会因为涉及多个主题而在搜索排名中被忽略,而不显示在搜索结果中,即使它们在这些页面上可能有非常有用且相关的部分有人在搜索,他们在该页面上混合的主题可能会使它们看起来与查询相关。如您所述,该信息可能会被稀释。

    如果小家伙有一个专门的页面,并且以一种足以让搜索引擎从中提取信息的格式来提供有关产品(或主题)的更多信息,那么他可能就是最后一位。如果搜索引擎正在从多个页面上收集有关某个产品或主题的信息,则它可能会确定他的信息最丰富,最有帮助,并将其页面放在第一位。

    I’我不确定这种细分会伤害较小的企业–它只是更仔细地查看页面上的内容,并且可能比页面更细粒度地索引。

  4. 罗伯特你好,

    我的文章底部的列表中有一篇论文,标题为“对象级垂直搜索,”扩展了这种VIPS方法。微软在产品搜索中使用了这种方法,相当于Google学术搜索–天秤座学术搜索。 Microsoft Research页面告诉我们,两者都已合并到Windows Live中,因此我们知道VIPS至少用于这些类型的结果。

    必须将我们的思维转移到页面的各个部分上,以及搜索引擎在进行爬网,建立索引和提供结果时如何查看这些内容,这是我们的头脑,我们可能不仅应该期望微软的支持,还应该期望谷歌和雅虎

    如果您想进一步探索它,那么查看有关对象级搜索的文章可能是个不错的选择。关于该主题的另外几篇论文是:

    对象级别排名:将命令置于Web对象中 (pdf)

    Web对象检索 (pdf)

  5. 威廉

    哈哈哈哈哈哈… okay I’我现在大概会感到困惑。值得庆幸的是,我有一个开发团队,可以做到这一切。我猜’这是您在实际操作中对它有更好的了解的一件事。

    当我’我在等一分钱’给那些人读书,谁知道呢,我可能实际上会学到一些东西。

    感谢您的努力ðŸ™,

  6. Ah…普通英语!现在谢谢’非常清晰。但是,如果所有信息都在多个页面上而不是一个页面上,那么我们将面临一个永恒的问题,这是与搜索最相关的页面吗?我认为对于晦涩的搜索,这可能是一个更好的主意,但是对于产品,’这样简单地将球直接传给大个子,只有一个专用页面的小个子将开始失败吗?

    但是,我确实认为,对于那些网站中充斥着被忽视的信息和其他相关内容的网站来说,这可能是个好主意’目前已将其稀释,但含量相同,但并非100%专用于单个点。

  7. 似乎这种类型的搜索引擎技术和页面索引最好以某种方式考虑到看似不同的主题(在搜索引擎算法的眼中)实际上可能与人类读者相关并相关的多种方式。

    正如您在这篇文章中指出的:

    …该专利最重要的优点之一是,网页上内容的索引编制可能基于页面的一部分,而不是整个页面。

    我认为这里的陷阱在于,可以将网页的某些部分移出上下文,并给予它们过多的重要性,使其成为独立的信息,从而实际上降低了使用该技术的搜索引擎返回的结果的相关性。

    您r thoughts?

    谢谢。

  8. // @人物查找器:不是’在返回博客文章的搜索中发现的问题。如果由于某种原因我们发现自己位于博客主页上,而不是满足我们需求的确切条目,我们通常会想知道为什么会出现在博客中。如果我们不停地滚动到所有乱码的底部,我们最终会找到与我们的搜索有关的帖子。

    难道这将是确定样板文本的更好方法?毕竟,如果许多页面上都存在相同或相似的代码,那么变化的代码片段确实比以前预期的更有意义吗?

  9. 嗨,Peoplefinder,

    我认为这里的陷阱在于,可以将网页的某些部分移出上下文,并给予它们过多的重要性,使其成为独立的信息,从而实际上降低了使用该技术的搜索引擎返回的结果的相关性。

    这可能是可行的,但相反的情况也是如此–这种方法可以提供对主题有用的信息的访问权,但可以放置在包含大量不同类型信息的大页面上,并且由于与该主题无关的信息可能不会显示在搜索结果中查询用于搜索的人。

    我认为您提出的问题是Microsoft研究人员一直关注的问题,这就是为什么开发对象级别排名方法的原因,该方法使用VIPS隔离不同块中页面上的内容,然后查找包含相关内容的其他页面。有关相同主题(或对象)的内容。这样,将来自不同页面的不同独立信息片段组合在一起。

  10. 罗伯特你好,

    I’d想听取景器’对该主题的看法也是如此。我认为在特定类型的页面的背景下探索类似这种方法可能会有所帮助–博客首页,产品部门页面,新闻和杂志门户页面,评论站点,社交网络门户页面。

    我确实认为这有助于确定样板文本,而不必查看同一站点的多个页面以进行比较,并查看作为样板重复出现的内容。那’这是这种方法非常有用的方面。我们也看到 雅虎试图做到这一点 通过更仔细地查看页面的HTML,以及 谷歌’样板的识别 可以帮助他们将注意力更多地放在页面的主要内容上。每种方法背后的方法不同,但结果非常相似–着重于页面上的独特内容,而较少关注可能出现在同一网站上许多其他地方的内容。

  11. 很棒的帖子!非常有用的信息。
    我已经添加了书签并订阅了提要。
    谢谢。

  12. 我认为这里的陷阱在于,可以将网页的某些部分移出上下文,并给予它们过多的重要性,使其成为独立的信息,从而实际上降低了使用该技术的搜索引擎返回的结果的相关性。

评论被关闭。