Google如何根据关键字选择数据存储源

分享是关怀!

选择正确的数据存储库源可以有所作为

在法学院的时候,我是一名环境法教授的助教。他让我从事的任务之一是对电子数据库进行审查和分析,该电子数据库可在发生某些环境损害(例如埃克森·瓦尔迪兹溢油事故)时用于评估自然资源损害。

您如何确定泄漏给环境,野生生物,居住在该地区的人们,以及依赖该地区从事工作和谋福利的人们的成本?简而言之,您会在其他法院审理此类案件,例如其他判决。

园丁大师计划的一部分,从当地公园里种花。

当时距万维网只有一年的路程,我们正在寻找的许多电子数据库都是非常有用的信息来源。我的任务是审查这些内容,并查看它们可能拥有多少价值和帮助。

往前走几年,我发现一些Google搜索工程师正在从事类似的任务,并使用一些有趣的工具对数据存储源进行分析。我从没想过要从那些数据存储源中查看关键字来评估其有效性。但是更有可能查看特定主题的报道。

It’很少会遇到来自其中一个搜索引擎的专利文件,该专利文件讨论了数据收集的经济成本以及收集此类信息时做出明智决策的价值。

经济成本和数据存储源的仪表板

Google的一项专利申请探讨了如何识别数据存储源,并考虑使用这些源的成本以及使用这些源所产生的信息的潜在利益。

冗余–网络上的信息太多?

当我们考虑Google的数据时,’不难相信,搜索引擎的重点是对网页进行爬网并提供其在网站上找到的尽可能多的信息。

但是,仅对网页进行索引就意味着搜索引擎可能会遗漏很多事实,而且我们看到诸如Wikipedia之类的知识库数据库资源在很多搜索中都显示得很好。

Google不仅为商业网站和产品提供索引。

专利申请提供了一个查询示例,该查询在某些方面可能会令人失望。

想象有人在寻找“新泽西州房地产”在网上。该专利使用了这个示例,在搜索结果中显示了2700万个网页。在我写这篇文章的时候,该查询有5300万个结果。

新泽西州房地产

那里 may be that many homes for sale in New Jersey. Maybe.

信息丢失太多了吗?

在购房者示例中,前50个返回的查询网页“新泽西州房地产”不包含有关以下内容的信息:

  • 学区
  • 犯罪率
  • 运输
  • 污染状况
  • 等等

更多信息可能会有所帮助,包括我最近听说的一些信息 步行分数.

该专利告诉我们,附加信息带有其自己的成本:

矛盾的是,除了许多家庭搜索网站以外,返回此类信息作为搜索结果还会给用户增加负担,并加剧信息过载的问题。

查找数据存储库源

该专利是:

探索和选择数据源的方法和装置
由Xin Luna Dong和Divesh Srivastava发明
美国专利申请20130138480
2013年5月30日发布
提交日期:2011年11月30日

抽象

选择用于数据仓库的数据源的系统和方法首先基于关键字选择数据源的初始选择。提供了一个探索工具,可以根据内容和其他属性来组织源。该工具用于预选数据源。然后根据边际主义经济学理论选择要包含在数据存储库中的源,该理论同时考虑了数据的成本和质量。

该专利依赖于X. L. Dong,L。Berti-Equille和D. Srivastava在论文中讨论的技术。 整合冲突数据:源依赖的作用

该论文的摘要提供了选择数据存储源的背后的一些见解:

许多数据管理应用程序(例如,设置Web门户,管理企业数据,管理社区数据以及共享科学数据)都需要集成来自多个来源的数据。这些来源中的每一个都提供一组值,而不同的来源通常可以提供相冲突的值。为了向用户提供高质量的数据,数据集成系统可以解决冲突并发现真实的价值。通常,我们期望比任何特定的错误来源提供更多来源的真实价值,因此我们可以将大多数来源提供的价值视为事实。不幸的是,错误值可以通过复制传播,这使得真相发现变得非常棘手。在本文中,我们考虑当存在大量来源时,如何从冲突信息中找到真实价值,其中一些来源可能会从其他来源复制。

数据选择与探索过程

这些是专利中描述的步骤,旨在使搜索引擎使用的数据存储源更有可能是好的。

(A)相关数据存储源是使用关键字查询来标识的。

(B)资源探索仪表板工具用于显示可用资源的概况,并突出显示已标识的相关资源。

这使他们能够

  • (1)了解所识别来源的领域和内容,并发现可能感兴趣的相关来源,以及
  • (2)了解来源的质量(例如覆盖范围,准确性,及时性)以及它们之间的关系(例如数据重叠,复制关系)。数据聚合者可以使用此工具来改善其信息需求(例如,收集计算机科学书籍的精确数据)并预先选择他们特别感兴趣的资源。

(C)按照指定的标准和预算以及一组预先选择的数据存储源,根据以下条件确定最佳源“数据购买,集成和清洁成本。”

外卖

谷歌不是’不仅索引它可以在网络上找到的所有内容。它’对它包含和不包含的内容非常认真’包含在网络上。它’不是实用工具,而是一项业务,其任务的一部分是寻找,收集和服务知识

对数据源的经济分析以及它们如何影响搜索者,远远超出了在Web上对企业进行广泛索引的范围,而是提供了人们所依赖的重要信息,包括知识库中的信息以及展示知识面板的信息,提供可以预期将来查询的查询改进。

那里’网络上有很多信息,还有很多错误信息。理想情况下,Google希望他们提供的有用信息胜过错误信息。

希望有人搜索有关新泽西州房地产的信息时,他们会找到一个页面,上面有搜索者希望看到的信息。

它会告诉人们附近的学校有多好,附近的学校是否安全,居住在附近的人对附近的公园和商店以及步行分数感到满意。

上次更新时间为2019年6月6日。

分享是关怀!

关于10条想法“Google如何根据关键字选择数据存储源”

  1. 谢谢比尔。非常发人深省。

    我们正在与内容客户合作,鼓励他们开始在其实体中心页面上构建结构化信息,以使它们成为迷你知识库以及内容网站。我在这里捡到的东西是‘预期未来的查询’ –即我们如何为每个实体创建这些小型数据库,以便它们实际上为将来提供一些不同且有用的功能…

  2. 我认为所使用的数据可能会深入集成到更多功能中,从而在SERP上列出结果,然后才被实际提及?

  3. 哇…谢谢你的这篇很棒的帖子。它确实显示了您在此主题上的大量知识和研究。请继续分享。

  4. 一如既往的好比尔…it’很难解决更多问题“qualitative”房地产区域搜索的数据,因为关于房地产经纪人(根据国家房地产经纪人协会的官方房地产专业人员)可以在网站上和/或亲自说/显示的内容有很多规则。因此,要在房地产清单的范围内走出表达意见或感受的精细路线可能会很棘手’的官方MLS信息。因此,在这方面,许多官方财产资源有限。

    例如,您可以列出区域中的哪些学校,但可以’不一定要在您的网站上列出学校等级(但可以链接到它)。但是每个MLS也有不同的规则。

    However, you can find 定性的 neighborhood info and school info mixed into property info on many sites like zillow, trulia, 等等 They can get away with a little more because they’不是官方的MLS列表网站(大多数情况下,它们会收到联合供稿,因此他们不会’不必遵守所有MLS规则)。 Urban Compass在提供有关邻居btw的可靠信息方面做得很好。

    无论如何,只想提供一点关于它的颜色 ’s a little different in the real estate world. 那里 are plenty of 3rd party, non-MLS affiliated sites though (like Walk Score) that provide great 定性的 info. Google could do a better job of serving this to consumers, as real estate search goes WAY beyond just looking at property.

  5. 嗨,比尔。

    有趣的文章。您说的是:Google希望有用的信息胜过错误的信息!

    我同意这一点,但是我在考虑Google如何识别有用的信息和有用的信息!我知道Google可以很快识别垃圾邮件站点和重复的内容站点,但是他们如何知道有用的信息呢?也许我只是不了解Google的工作原理

评论被关闭。