谷歌&事实提取,标准化和可视化

分享是关怀!

当我们谈论诸如Google之类的搜索引擎如何从网站抓取信息并编制索引时,它’通常是在搜索引擎向搜索者显示的Web结果的上下文中。

网站结果的事实

但是,随着通用搜索和混合搜索结果显示来自本地搜索,问题解答,定义等的信息,开始更加关注搜索引擎如何从页面提取事实,创建“objects” from those facts, and ranking those 对象.

在去年9月的一篇文章中,我详细介绍了Google专利申请如何关注 本地搜索的数据实践,标题为 Generating 结构化信息讨论了如何从Web提取事实和信息并将其包含在本地搜索存储库中。

专利申请爆炸

那“结构化信息”该文件已被引用为本周于2006年提交的许多新专利申请的相关专利申请。 提取事实, 归一化 他们和 可视化 他们以不同的方式。

I’我们找到了许多其他相关文件,以尝试对此数据提取方法进行广泛概述,这种方法较少关注可在Web索引中搜索的索引关键字,而更关注于创建“objects”为特定的人,地方,企业和其他实体构建的事实。

可能在这些较新的申请中增加一些背景的另一个较旧的专利申请是 从半结构化文本中学习事实 (20060293879),该文件于2005年提交,并于去年12月发布。该文档的摘要描述了一种从网页收集事实的方法:

描述了一种从半结构化文本中学习或引导事实的方法和系统。从与对象关联的一组种子事实开始,识别与对象关联的文档。检查所识别的文档以确定每个文档是否至少具有第一预定义数量的种子事实。

如果文档确实具有至少第一预定义数量的种子事实,则标识与种子事实相关联的上下文模式,并且标识与上下文模式匹配的文档中的其他内容实例。

如果文档包括至少第二预定数量的与上下文模式匹配的内容的其他实例,则可以从其他实例中提取事实。

关于实物的专利申请

I’在接下来的几个月中,我可能会花一些时间浏览以下文档,而我’我可能不会在这里总结或深入分析这些,但是根据我的’略读并阅读,他们提出了一些值得进一步研究的想法。

注释框架,
由Tom Richford和Jonathan T.Betz于2006年2月17日提交,于2007年8月23日发布(20070198499)

可浏览的事实资料库中的自动对象引用标识和链接,
由Andrew W.Hogue和Jonathan T.Betz于2006年2月17日提交,2007年8月23日发布(20070198481)

可浏览的事实存储库,
由Andrew W.Hogue和Jonathan T.Betz于2006年2月17日提交,于2007年8月23日发布(20070198503)

查询语言,
由Andrew W.Hogue和Doug Rhode于2006年2月17日提交,于2007年8月23日发布(20070198480)

支持对象搜索,
由Alex Kehlenbeck,Andrew W.Hogue和Jonathan T.Betz于2006年2月17日提交,于2007年8月23日发布(20070198451)

无监督提取事实
Jonathan T.Betz和Zhao Shubin于2006年3月31日提交,于2007年6月28日发布(20070150800)

在事实存储库中管理事实的机制
由Andrew W.Hogue和Jonathan T.Betz于2006年4月7日提交,于2007年6月21日发布(20070143317)

锚文本摘要以供佐证
提交于2006年3月31日,于2007年6月21日发布,作者是Shubin Zhao和Jonathan T. Betz(20070143282)

可视化数据对象

事实查询引擎的用户界面,其中包含来自信息源的片段,包括查询词和答案词
由Andrew William Hogue于2005年3月31日提交,于2006年10月5日发布(20060224582)

使用图形显示数据对象,
由Andrew W.Hogue,David Vespe,Alex Kehlenbeck,Mike Gordon,Jeffrey C.Reynar和David Alpert于2006年1月27日发布,于2007年8月9日发布。(20070185870)

使用地图可视化数据对象,
由Andrew W.Hogue,David Vespe,Alex Kehlenbeck,Mike Gordon,Jeffrey C.Reynar和David Alpert于2006年1月27日发布,于2007年8月9日发布。(20070185895)

指定要分析的数据对象,
由Andrew W.Hogue,David Vespe,Alex Kehlenbeck,Mike Gordon,Jeffrey C.Reynar和David Alpert于2006年1月27日发布,于2007年8月2日发布。(20070179965)

在线性图上显示事实
David J.Vespe,Andrew W.Hogue,Alexander Kehlenbeck,Michael Gordon,Jeffrey C.Reynar和David B.Alpert于2006年9月27日提交,于2007年8月2日发布。(20070179952)

数据对象可视化,
该文件于2006年1月27日提交,未出版,作者:Andrew W. Hogue,David Vespe,Alex Kehlenbeck,Mike Gordon,Jeffrey C. Reynar和David Alpert(代理案卷号:24207-10946)

用于信息提取的对象分类,
乔纳森·贝茨(Jonathan T.Betz)于2006年1月27日提交,未出版(律师备案号:24207-10952)。

规范化数据

属性熵作为对象归一化的信号,
乔纳森·贝茨(Jonathan T.Betz)于2006年2月17日提交,维维克·梅内兹(Vivek Menezes)(20070198597)

通过名称规范化实体,
Jonathan T.Betz于2006年3月31日提交,于2007年8月23日发布(20070198600)

通过标准化的ID持久性,
Jonathan T.Betz,Andrew W.Hogue于2006年2月17日提交,于2007年8月23日发布(20070198577)

实体规范化的模块化架构,
提交人:Jonathan T. Betz,Farhan Shamsi,2006年2月17日提交,2007年8月23日提交(20070198598)

分享是关怀!

关于2个想法“Google &事实提取,标准化和可视化”

  1. Pingback:本周搜索引擎优化-8/31/07-TheVanBlog

评论被关闭。