How 谷歌 Crawls Facts on the Web

分享是关怀!

谷歌 described some of the 看门人 it uses to crawl facts on the Web in a recent patent application.

谷歌 has been working on extracting data from a wide variety of sources on the Web, but there are problems with a lot of that information. Some examples:

一个站点可以使用某种格式来呈现信息,而其他页面则使用不同的格式。

来自一个网页的信息可能与来自其他网页的信息相矛盾。

一些数据可能会过时和过时。

When 谷歌 抓取事实 to collect this kind of information, a lot of it needs to be cleaned up, 和 谷歌’s “Janitors”付诸行动做到这一点。

这里 are some of the different kinds of 谷歌 看门人s, 和 the things that they do when 谷歌 抓取事实:

Blacklist 看门人 –这些看门人着眼于模式,并消除了与某些模式匹配的任何事实。因此,他们可能负责清理实际上的某些语言,并删除诅咒词。

Singleton-attribute 看门人 –为每个对象标识唯一的事实属性,并消除任何给定对象上该属性的一个实例。由于这个看门人,当我们询问威廉·沙特纳时’Google的生日,我们只有一个日期(1931年3月22日)

String-cleanup 看门人 –它们的功能是从属性的开头或结尾修剪掉无用的字符,例如@,#,%或!。

Name-group-threshold-match 看门人 – 他们 merge duplicate objects if those share a certain number of attributes, based on their entropy (there’熵的定义值得一看)。

持久性事实断言者 –从以前的存储库中删除任何不再保留的事实。

断断续续事实 –删除属性和值相同的任何事实。

Reference-redirect-collapser 看门人 –折叠指向已合并对象的值链接。

Invalid-fact-deleter 看门人 –删除所有未能通过一些基本有效性检查的事实,例如,该值为空。

Suspicious-fact-deleter 看门人 –删除具有冗长属性(例如3个字)的事实,并重复出现在对象其他位置的信息。

Invalid-language-deleter 看门人 –删除某些语言中的任何事实,并可用于按语言区分事实。

Legal-constraint 看门人 –出于法律目的对对象施加约束,因为某些文档可能会限制从中提取多少事实。

Unlicensed-fact-finder 看门人 –删除任何标记为存在的事实“internal only”出于法律或其他原因。

Small-object-deleter 看门人 –删除事实很少的任何对象。

Dangling-reference-deletion 看门人 –删除任何值链接指向不存在的对象的事实。当对象被另一个管理员删除时,它们可能会丢失。

Name-references-resolver 看门人 –识别实际上对其他对象的引用,并创建指向其他对象的搜索链接。

Place-cannonicalizer 看门人 –将地名改写为规范形式– “Trenton, NJ”可以重写为“Trenton, N.J.”

Date-canonicalizer 看门人 –将日期重写为规范形式– “2006-02-16”可以重写为“16 Feb. 2006.”

Measurement-cleanup 看门人 –将测量值重写为规范形式– “5’4”” or “5 ft. 4 in.”可以重写为“5′ 4″.”

Attribute-cannonicalizer 看门人 –重写属性– “birthday”, “birthdate”, 和 “birth date”可以重写为“date of birth.”

Article-value-normalizer 看门人 –用文章将值重写为可读格式– “Foo, The”可以重写为“The Foo.”

Type-identifier 看门人 –根据看门人的子集为对象分配类型值–例如,每个事实都有“date of birth”属性分配的类型值为“person.”

Born-died cleanup 看门人 –将与出生和死亡日期相关的事实分为几个事实。例如,事实“出生:1960年7月14日在宾夕法尼亚州斯克兰顿。”可以分为出生日期的事实和出生地点的另一个事实。

Near-duplicate-fact-merger 看门人 –合并重复的事实。

Value-dereferencer 看门人 –标识一个事实,该事实的值是指向另一个对象的链接,并将该事实的显示值更新为该对象的名称。

谷歌’管理员是处理在Web上找到的数据并试图将其转换为可用于回答问题的有用信息的软件程序。

I’m left wondering what the titles are of the guys who actually clean up around the 谷歌plex.

专利application is:

在事实存储库中管理事实的机制

抽象

用一个或多个看门人处理事实的方法和系统。事实摘自Internet或其他来源上的文档。事实可以是文档中的任何数据或一系列数据,包括属性和文件。数据可以采用文本,图形或多媒体内容的形式。看门人响应于推断与事实相关的特定条件而转换事实。该条件可以与被分析事实的属性,值或对象中的一个或多个有关。例如,管理员可以执行规范化,删除或合并相似或重复的事实,分离一个事实的多个值等。管理员可以选择将哪些管理员应用于事实,并选择顺序。

分享是关怀!

关于12条想法“How 谷歌 Crawls Facts on the Web”

  1. 专利“属性熵作为对象归一化的信号”提到那里似乎消失了!一世’d想看看该熵专利。

  2. 嗨,Ergodic,

    那一个天堂’还没有正式发布。我确实看到它的预计发布日期为2007年8月23日。

    在阅读您的评论后,我能够获得有关该专利申请的其他信息,并且确实制作了一些文件的副本,但现在我可以’t复制搜索。

    这里’s如何尝试到达那里:

    转到此页面:

    http://portal.uspto.gov/external/portal/pair

    输入专利申请的申请序列号– 11/356,765 –在搜索文本框中。

    单击控件编号前面的单选按钮,然后单击搜索按钮。

    在出现的页面上,您可能会或可能不会看到有关专利申请的某些信息(我是第一次尝试搜索,但第二次或第三次都没有)。如果确实看到有关专利申请的信息,请单击标签为“Image File Wrapper.” Once there, you’会看到很多pdf文件的链接–其中一些工作,而另一些则没有’提供任何信息。寻找“Specifications” 和 “Claims”链接,然后单击那些链接。

    我制作了它们的副本,所以如果您在获取它们时遇到问题,请告诉我,我会把它们发送给您。

  3. 谷歌的管理员是一种软件程序,用于处理在Web上找到的数据,并试图将其转换为可用于回答问题的有用信息。

    也许你应该先发布这个
    我在寻找一个明确的定义。一开始我有点迷路。本文有趣的内容

  4. 阅读该专利申请看起来像是标准数据规范化技术,这在数据库联合,数据仓库和数据挖掘社区中已经很普遍了, 几十年.

    他们’将这些传统技术应用于网络。任何不做的人’没有想法将他们已经知道的内容应用到网络上处于睡眠状态或已故,而这本不应该通过“obviousness”测试专利局应该申请专利。

    重命名现有的做法,使某些新颖的东西(管理员)无法使其新颖。这是不应被授予的专利的一个示例,并且某人(可能来自数据挖掘供应商社区)将不得不在诉讼上花费大量资金才能推翻。

    (对专利局的相对无能为力,尤其是省略了某些软件专利。)

  5. 嗨,巴里,

    I’ve听到了有关专利局的怒吼,并亲自做了几次。 ðŸ™,

    但是,我们可以’在涉及本专利申请时,请不要使用它。避风港’被授予,可能不会被授予。

    美国专利局数据库中有一个部分,可让您查询未决专利申请的当前状态。这一过程在获得批准的过程中遇到了一些问题。

    在去年三月的非最终驳回中,专利局指出了其他一些首先提交的文件,其中涉及一些相同的权利要求:

    用于维护数据对象数据库的方法,系统和程序

    信息检索系统

    用于空间数据中的知识发现的系统和方法

    具有逆属性的实体属性值数据库系统,用于选择性地关联两个不同的实体

评论被关闭。