模板之间的模式导致关于实体的线索

分享是关怀!

在我的第一个“无专利星期五”中,我要写我所居住的小镇上最好的两个商人,一对面包师,他们在弗吉尼亚州沃伦顿市历史悠久的大街的两端烘烤。我想清晨起床做面包有利于让营销观念得到养育和发展。他们俩都值得写,所以我’我打算将该主题保留另一天,但在这里还不给太多。

通过  金伯利·瓦尔德曼 |   http://creativecommons.org/licenses/by/4.0/
通过 金伯利·瓦尔德曼 |
http://creativecommons.org/licenses/by/4.0/

上周,当我在Pubcon上发表演讲时,又出现了另一个话题,并遇到了一个老朋友,他曾经是我作为管理员的网络论坛的主持人。他问我一个问题’此后一直在思考,提出了许多不同的答案。一世’我现在要分享这个问题,但直到下一个星期五才分享我的答案,以便您有机会思考如何回答这个问题。

如果您能回到过去并改变一件事,那会是什么?

相反,我’我将深入研究白皮书并分享我认为非常有趣的白皮书。和我’我在第一个官方的“免费星期五”作弊。我在以下清单中找到了这篇论文“other references”申请专利。我看到了论文的标题,不得不去查找它。找到副本后,我觉得必须分享它。它回答了有关Google如何学习网络的一些问题。

Google了解Web的地方之一是查看与某些类型的内容相关的模式。这可以追溯到谢尔盖·布林(Sergey Brin)’DIPRE算法,在 从万维网中提取模式和关系

那么,如果Google使用来自Wikipedia和其他网站等来源的模板来了解Web上的实体,那么每个实体可能是哪种类型的实体呢?

例如,下面约翰·缪尔(John Muir)的维基百科信息框告诉我们有关环保主义者的更多信息。通过在Wikipedia上为他提供页面和模板,以及有关他的出生日期,职业类型等信息,我们知道他是个很有名气的人(因为Wikipedia’针对在线百科全书中列出的人员的注意事项政策)。通过Google从此类模板中收集事实,并从中寻找模式,这可以使从网络中提取有关这些实体的更多信息变得更加容易,我们可以看到Google如何建立关于实体的信息的事实存储库。

John Muir Page的模板提供了他的生活的一些细节。

白皮书是

Web规模命名实体识别
Google的Casey Whitelaw,Alex Kehlenbeck,Nemanja Petrovic和Lyle Ungar撰写
摘自2008年10月第17届ACM信息和知识管理会议论文集123-132页

抽象:

在整个网络中自动识别诸如人,地方,组织,书籍和电影之类的命名实体提出了许多挑战,无论是规模还是范围。

用于训练通用命名实体识别器的数据很难获得,一旦我们发现了数以亿计的标记观测值,就需要有效的机器学习方法。我们提出了一个解决这些问题的实施系统,包括一种自动生成训练数据的方法,以及一种多类在线分类训练方法,该方法不仅学习识别诸如地点和人的高级类别,而且还可以识别¬否定了类别,例如足球运动员,鸟类和大学。

即使Web文档通常缺乏一致的大写字母和语法句子构造,所得到的系统仍具有与在结构更为复杂的领域(例如新闻通讯社中的公司识别)中更有限的实体类型所获得的精度和召回性能相当的功能。

本文分为以下几节:

1.简介
2.训练集生成
2.1使用Factzor提取实体
2.1.1通过列表提取提及
2.1.2通过模板提取提及
2.2训练集扩展
2.3非实体
2.4特征生成器
3机器学习
3.1特征筛选
3.2感知器算法
3.3类层次结构的使用
3.4纠错输出代码
3.5预测分辨率
4.结果
4.1功能优势
5.相关工作
6。结论

这对我来说是最有说服力的段落

我们系统成功的关键是使用我们称为“方法”的方法“factzor”用于无监督地从网上提取事实。 Factzor查找模板可用于识别已知类型的高质量实体。 Factzor从一组已知类型的实体(以及它们之间的关系)(可选)开始。如上所述,我们使用从维基百科和IMDB等来源中提取的实体和事实。然后,我们在网络上搜索实体名称的出现情况。名称周围文本中的重复模式(“模板”)被提取,过滤((可选)概括),然后用于提取更多事实,或者在我们的案例中,提取已知类型的实体。

真的不是’关于实体的信息很难在网上找到。相反,困难在于以一种易于从Web提取的方式来知道在哪里寻找以及如何提出。

在很多事情上可能都是这样。

分享是关怀!

3个想法“模板之间的模式导致关于实体的线索”

  1. 嗨,比尔,

    这篇帖子促使我完成了几个月前我一直在从事的有关Google重写标题的工作。既然您询问了搜索结果发现,我就以您的荣誉完成了它! --

  2. 嗨,比尔,
    这很有道理。我的假设是,所有专有名词中都存在某些模式-维基百科是一个很好的模板。例如,对于个性而言,在某个人的名字表达范围内,例如“ Born”或“ DOB”会出现。

    这些表达式之后的区域包含被识别为出生数据的内容的关键片段。您将假设智能索引将能够识别所有格式(例如4/9 / 1985、1985年4月9日或1985年4月9日)。同样,对于特定位置,Google可以很容易地以相同的方式提取人口数据。

评论被关闭。