
从网页和查询日志中提取语义类
分享是关怀!
在创建知识库时,似乎有几种方法可用于从网页和查询日志等来源提供实体和事实。
在上一篇文章中,我写了关于如何使用搜索查询以及语言模式来提取事实的属性的文章 从那些搜索查询中,如标题为“根据搜索查询推断属性”的专利中所述。
微软2009年的一篇论文, 查询中的命名实体识别,讲述了他们对1,000个查询执行的手动分析,并告诉我们 这些查询中有70%包含命名实体.
因此,实体确实会出现在查询中,并且Google每天都会收到很多查询(Microsoft和Yahoo也是如此)。
去年,与该专利相同的作者授予了Google的一项专利,该专利的作者是Marius Pasca和Benjamin Van Durme,它从查询中提取实体和有关数据的专利,描述了Google如何从中提取语义类和对象(实体)实例的文本。文本。当专利中提到文本时,它们(在这种情况下)表示网页和查询日志的集合。
专利使用该语言“classes” and “instances”, and it’了解这些词的含义很重要。一种 类 是对象的属性值的一种类型,例如“presidents” or “stamps” or “cities”。实例是这些类之一中实体的一次性实例,例如“George Washington,” or the “Inverted Jenny” stamp or “Princeton”或类的子类,所以狮子是动物的子类。
This patent describes ways to extract semantic 类 and corresponding 实例 from a collection of text.
It could start finding semantic 类 通过 :
- 接收文本集合(网页和查询日志)
- 为文本集合标识实例类对的初始集合(实际提取过程)
- 使用文本集合对语义相似的短语集合进行聚类(查找“like”对,以便可以计算在内)
- 使用实例类对的初始集合和语义相似的短语簇生成提取的实例类对的集合;和
- 存储提取的实例类对的集合以用于信息检索
专利中描述的这些功能可能是可选步骤:
- 生成提取的实例类对的集合还包括:识别实例类对的初始集合的一个类,该实例类对的初始集合标记在语义相似的短语簇的簇中的至少一个实例。
- Determining whether a threshold number of 与类配对的实例 are found within the cluster
- 确定语义相似的短语簇的阈值数目的簇是否包括该类的至少一个实例
- 当满足实例的阈值数和群集的阈值数时,将与该类配对的群集中的每个实例标识为该类的实例
我很高兴看到“thresholds”这里提到的是这些的最小数量“与类配对的实例”可以在群集中找到它,使其视为值得保留的实例。
因此,如果“George Washington” isn’与班级相关的“President”足够的时间,并没有’如果达到该阈值,则可能不值得保留。
The semantic 类 patent is:
Extracting semantic 类 and 实例 from text
由Marius Pasca和Benjamin Van Durme发明
分配给:Google
美国专利8,510,308
2013年8月13日授予
提交日期:2010年6月16日
抽象
方法,系统和装置,包括在计算机存储介质上编码的计算机程序,用于从文本集合中提取语义类和相应的实例。
本说明书中描述的主题的一个方面可以用包括以下动作的方法来体现:
- 接收文字集
- 为文本集合标识实例类对的初始集合
- 使用文本集合对语义相似的短语集合进行聚类
- 使用一个或多个处理器,使用实例类对的初始集合和语义相似的短语簇,生成实例类对的提取集合。
- 存储提取的实例类对的集合,以用于信息检索。
Google为什么要这样做?
这里’简而言之,专利的答案是:
类实例对的集合可以例如由信息检索系统使用。例如,信息检索系统可以使用提取的实例类对的集合来响应接收到的查询来标识特定的Web内容。
语义类和本地搜索示例
如果Google Maps是一个知识库示例,可用于回答与不同位置的企业有关的查询,例如[新泽西州普林斯顿的加油站],则该系统可能包括从网页和查询日志中识别普林斯顿的加油站类别。当提取这些信息时,它可能会对其进行聚类,就像它对Google所描述的有关不同业务的信息进行聚类的方式一样’s patent 数据点聚类的方法和系统 。这里’是摘要的摘要:
提供了用于基于组中每对数据点之间的相似性度量对一组数据点进行聚类的系统和方法。可以为组中的每对数据点估计成对相似度函数。可以执行聚类算法以创建聚类,并使用成对相似性函数将数据点与聚类相关联。
语义类提取过程
可能使用的文本集合可能以数以百万计的英语Web文档编号。 (我怀疑其他语言也可以使用。)
从该专利中提取的实例类对的一个示例是“‘George Bush’作为与该类相对应的实例‘presidents'”.
我们被告知,一个特定实例可以属于多个类。因此,像罗纳德·里根(Ronald Reagan)这样的人可能是总统,演员,电影公会主席,商人,已婚男人,父亲,甚至其他人。
另外,每个类可以包括多个实例,以便几个实例-类对具有相同的类但具有不同的实例。班级“Person”一百万个网页中可能有很多实例。
此过程可能通过清理网页,执行以下操作开始:
- 解析HTML标签
- 标记文本
- 将文本拆分为句子
- 标记词性
可以使用在文本集合上训练的统计方法来标记语音部分。
该专利提供了一个文档,其中提供了语音标记的示例,“TnT–语音统计工具的统计部分.
Part of speech tags are helpful when searching for particular patterns, 喜欢 SuchAs-style patterns.
语义相关短语的簇可以从诸如句子之类的短语中构建“克林顿否决了该法案” and “布什否决了该法案,”两者都暗示克林顿和布什可能在语义上相关。
这可以通过查看短语的匹配以及前缀和后缀中短语的上下文,或者查看句子中短语左侧和右侧的指定数量的单词来完成:
每个上下文成为与该短语关联的向量中的一个条目。向量捕获短语在文本中的显示方式以及短语的相关频率。系统基于短语的向量对短语进行聚类,以生成分布相似的短语的聚类。
所以我们“vetoed the bill”for Bush and Clinton提供了基于上下文的后缀,从而允许Bush和Clinton在语义上进行聚类。
我昨天写的帖子还提供了其他几种语言模式,这些模式可能涉及提取对象及其属性。可以类似地将它们聚集在一起,以查看它们是否足够。
该专利提供了一个示例查询,该过程可以帮助解决该问题,“what are the top US 总统s?”
I’撰写了一些有关命名实体的文章。这些是我想分享的:
- 您是否有用于营销网站的命名实体策略?
- 我如何爱实体并开始进行实体优化
- Google如何对具有相同名称的实体使用命名实体消歧
- 如何将命名实体连接到趋势主题以解决实时搜索结果
- 不是品牌而是实体:命名实体对Google和Yahoo搜索结果的影响
- 如何在搜索中使用知识库实体
- 在Google的知识图中查找实体名称
- Google通过命名实体变得更聪明:收购MetaWeb
- 与网站和相关实体的实体关联
- Google如何使用锚文本识别实体同义词
- 从诸如Wikipedia标题和信息框之类的来源中提取实体的事实
- 从网页和查询日志中提取语义类和相应的实例
- Google如何识别主要实体
- Google的知识图如何通过回答问题来自我更新
上次更新时间为2019年6月26日。
分享是关怀!
有1个想法“从网页和查询日志中提取语义类”
法案,
史诗般的文章,感谢您浏览该数据以将其更多地编码为外行术语。
这个语义网是一个新世界,但是试图弄清楚Google对中小型企业的需求却令人生畏。特别是如果这些企业是不具备’t require a novel written for 其 websites, or a ton of social signals.
我想知道这项专利对改善本地服务/企业的搜索结果有多大用处?还是G另一个失败的想法?
关于G’s latest patents –他们的意图是“combine”多项专利,例如难题之类的专利,可以与其他专利一起即时转换出来,以获得特定类别所需的数据集,并对不符合要求的任何产品进行处罚’t fit “their” model?
因此给出了更大的审查概率“their internet” perhaps?
今天刚看到有关G的内容’s “spooky”数据收集,非常感谢您对此处提到的其他两项专利的想法–> http://www.youtube.com/watch?v=4fOIfLNQzr4
谢谢比尔– Cheers
评论被关闭。