Google通过查询将实体属性添加到其知识库中

分享是关怀!

搜索者查询可向Google告知有关实体属性的信息

随着人们努力满足其信息和情境需求,每天都有数百万次搜索流入Google。但是那些搜索没有’搜索后消失。作为回报,它们为Google提供了一些非常有趣和有用的信息。例如,他们告诉Google哪些人对实时感兴趣–就在这一刻。

Those queries can also help Google populate its knowledge base with more information as well, about 实体 属性s

Google收集有关实体的信息时–人员,地点和事物(包括产品和品牌),它可能会收集有关这些实体的事实以及有关实体属性的信息。

几天前,Google Research博客告诉我们有关它可能如何在搜索结果中包含此类事实信息,他们称之为 结构化片段。在该帖子中,Google给了我们一个新闻,即Google从网络上的表中找到诸如实体属性之类的信息。

A query about Canada's Provinces with a table in 的search snippet

我没有’t有目的地开始寻找其中包含表格的代码段,但我要求“all”加拿大的省份’s what I got –包含实际表格的代码段。

有关实体和实体属性的信息遍及整个Web,并且还填充了人们在Web上搜索时执行的查询。考虑到这些查询代表了人们在搜索时所寻找的东西,因此它们似乎是很好的信息来源,可用于查找有关实体属性的更多信息–实体及其相关事实。

该专利描述了如果查询中的实体属性包含专有名称或某种通用属性(它可能会忽略它们),那么它将如何处理查询中的实体属性。但是我发现有趣的是Google如何尝试使用语言模式来尝试查找,识别和提取实体和实体属性。

此过程无需人工监督或干预即可完成。它涉及使用搜索查询日志来查看人们搜索的查询。

Given 的numbers of searches that people do at Google every day, there’不缺少要使用的查询。

我以以下语言模式为例,Google可能会使用这些语言模式从专利中识别实体和实体属性。

The 实体 属性s patent is:

Inferring 属性s from search queries
由Alexandru Marius Pasca和Benjamin Van Durme发明
分配给Google
美国专利8,812,509
2014年8月19日授予
申请日期:2012年11月2日

抽象

用于从搜索查询中推断属性的系统,技术和机器可读指令。在一个方面,一种方法包括:接收搜索查询的集合的描述;从搜索查询的集合的描述中推断出实体的属性;将推断出的属性与以该属性为特征的实体的标识符相关联;以及进行可用的属性和实体。

语言模式可用于从搜索查询中推断出实体属性。可以针对搜索查询日志来完成此操作,以识别实体的属性。

One extract pattern can be used to scan keyword-based queries for 的text that matches 的format “what is 的“attribute” of “entity.”

例子:

  • What is 的capital of Brazil?
  • What is 的airspeed velocity of an unladen swallow?

可以使用另一种提取模式来扫描基于关键字的查询以查找与格式匹配的文本“who is 的<attribute> of <entity>.

例子:

  • Who is 的mayor of Chicago
  • Who is 的CEO of Google

A third extraction pattern for 实体 属性s might look through queries for text that matches 的format “the <attribute> of <entity>.”

例子:

  • 的capital of France
  • 的manager of 的Yankees

并且,不同的提取模式可能会尝试找到以下答案:“who is 的<entity>’s <attribute>.”

例子:

  • 谁是Yankees’ manager
  • 谁是airplane’s pilot

An extraction pattern can also scan keyword-based queries for text that matches 的format “<entity>’s <attribute>.”

例子:

  • 迷迭香’s baby
  • 米开朗基罗’s David

这不是’详尽列出了实体属性的提取模式,但是它应该使您了解其潜在的有效性。

It’有趣的是Google不是’尝试使用上面显示的模式从发布到Web的页面上提取该实体的属性信息,而不是从许多搜索者的大量数据流中提取属性信息。好像Google是众包实体属性来自搜索者的信息,因为它似乎是他们感兴趣的。

关于一个非常相关的主题,该文章的后续文章是 搜索引擎查询可用于识别实体属性

上次更新时间为2019年7月14日。

分享是关怀!

关于6条想法“Google通过查询将实体属性添加到其知识库中”

  1. 嗨,比尔,
    I loved 的Monty Python and The Holy Grail reference (“你是什​​么意思,非洲或欧洲… swallow?”).

    您是否认为Google使用提取模式是因为它的绝对数量隐含真实性’可访问的数据,不再需要(人工)网站数据进行关联,仅需要搜索查询和所有以前的数据?您是否认为这是语义搜索自动化以及搜索中可能真正的AI上下文理解的兴起?
    谢谢!

  2. As usual Bill, thanks for 的explanation and breakdown with this Google Patent.
    对于有机搜索字词的知识图结果,您如何建议这项工作对您有利?

  3. 亲爱的比尔,
    我特别喜欢您的细节当您说Google收集有关实体(人,地方和事物,包括产品和品牌)的信息时,Google并没有试图从发布到Web的页面中提取这些信息。瞄准观众
    谢谢

  4. 比尔’s a great post.

    Google正在利用用户’在将语义风格纳入其算法方面提出了极大的质疑。
    用户数’ queries helps a lot to Google in determining 的relationships between 实体 and 属性.

    With 的introduction of semantic search, there will be little or no traffic for pages in 的inner pages of SERPs.

    Google显然恪守其座右铭,
    “快速准确的结果给用户”.
    SEO的未来是第一位置,而不是第一页。

  5. When go ogling our business 的incorrect address will popup! How do we go about updating address and phone numbers?

    多谢您提供任何协助。

    敬上,
    佩里·托杜拉基斯(Perry Todoulakis)

评论被关闭。