在Google图书官方网投中探索图书之间的连接

分享是关怀!

2007年9月,Google研究科学家Bill Schilit和Okan Kolak宣布了Google图书官方网投的一项新功能,他们称之为 热门段落。公告是在 在Google图书官方网投中 标题为的博客文章 使用Google图书官方网投深入研究模因池

热门段落 通过从一本书,杂志或出版物中引述有趣的引文或段落,并显示它们出现在其他文学作品中的位置,使我们能够找到书籍之间的联系。例如,以下段落显示了这本书 摇钱树:赢得不公平游戏的艺术:

这样:最近,在一艘加利福尼亚船的沉船中,一名乘客用一条皮带绑着他,上面系着200磅金,后来被发现在船底。现在,当他下沉时–他是金子吗?还是拥有金子?

约翰·罗斯金(John Ruskin)的这句话引自书本,至少出现在 35其他出版物.

段落可以从书本中出现在引号内的材料(如上面的引文)中选取,也可以从书中未引用的段落中摘录。例如,来自 钱球 出现在该书的第37页上:

从保罗’的观点,这对大学球​​员来说是一件好事:他们拥有有意义的数据。与高中生相比,他们在激烈的比赛中玩了更多的游戏。他们的相关统计数据的样本量较大,因此可以更准确地反映一些潜在的现实情况。与高中生相比,您可以更确定地预测大学生。的…‎

热门段落 功能告诉我们这段话 出现 在2003年至2008年的两本书中,我们发现其中出现的另一本书是
棒球经济学家:真实的游戏暴露

什么’有趣的是 热门段落 图书官方网投功能是一种功能,它可以基于文档之间共享的段落在文档之间创建链接,这些文档中包含大量不’包含彼此的链接。

此功能的附加功能是查看这些段落的文本,以及在其后的一定数量的单词,以识别在这些段落的上下文中同时出现的关键术语,以便可以官方网投这些段落和其中包含的书籍由那些“Key Ideas.”

研发背后的技术挑战 热门段落 流程背后的研究人员在几份白皮书中描述了可官方网投的关键思想:

还有一些Google专利文件与引号,段落和关键思想的标识以及这些段落作为结果出现在Google图书官方网投中时的排名有关:

识别和链接数字文本语料库中的相似段落
由William N.Schilit,Okan Kolak和Adam Mathes发明
分配给Google
美国专利申请20090024606
2009年1月22日发布
提交日期:2007年7月20日

抽象

语料库包含来自多个文档的数字文本。段落挖掘引擎在文档中标识相似的段落,并存储描述相似性的数据。段落挖掘引擎根据相似度或其他标准将相似的段落分组。

段落挖掘引擎根据质量或其他条件对文本语料库中找到的相似段落进行排名。呈现了一种用户界面,该用户界面包括与相似段落相关联的超文本链接,这些链接允许用户浏览文档。

对相似段落进行排名
由William N. Schilit,Okan Kolak和Justin John Paul Vincent-Foglesong发明
美国专利申请20090055389
2009年2月26日发布
提交日期:2008年6月5日

抽象

数字语料库中的段落至少部分地基于语料库中发生的段落实例的特征来进行评分和排名。

这些特征包括作者的受欢迎程度,相似段落中引入和跟随相似段落的词语的特征,该段落在数字语料库中的出现频率,相似段落的长度,相似段落的词语,标点符号的使用相似的段落,以及相似的段落在数字语料库中的传播。

对特征进行评分和加权以产生相关段落的排名分数。排名分数用于包括选择与文档相关联地显示的段落以及响应于官方网投而显示的段落进行排名的目的。

识别与相似段落相关的关键术语
由William N. Schilit和Okan Kolak发明
美国专利申请20090055394
2009年2月26日发布
提交日期:2008年1月30日

抽象

确定了来自大型语料库的相似段落的关键术语,并将其用于增强对语料库的官方网投和浏览。语料库包含多个文档,例如书籍的文本。

通过在语料库中存储的文档中标识一组相似的段落或语录,并为将概念上相关的段落链接在一起的段落分配关键术语,可以支持按概念浏览。

识别每个段落实例的上下文,并且可以包括例如段落周围的文本。分析所有相似段落实例的上下文,以识别相似段落的关键术语。

分析相关关键词,以识别来自不同相似段落集的关键词之间的关系。关键字可以用作导航语料库中文档的基础。关键字使您能够通过文档中引用的概念浏览语料库中的文档。

Google图书官方网投提供了许多其他有趣的功能,例如:

  • 评论列出的书籍,
  • 网页,其他书籍和学术著作中的参考文献,
  • 链接到同一本书的其他版本以及相关书籍,
  • 的清单“key terms”出现在书中并带有指向其出现位置的链接;以及
  • 图书中提到的地点的Google地图。

上面的白皮书告诉我们 热门段落 自从发布以来,已被证明是Google图书官方网投最受欢迎的导航功能之一。

I’我对那个承认并不感到惊讶。能够找到出现在书中并在其他书中共享的有趣引语是一种吸引人的方式,可以发现其他作者共享的书中的思想,并观察这些思想如何传播。

看看发明人如何 热门段落 提出了他们的方法,以在上面的白皮书和专利申请中找到扫描文档中有趣的共享段落并对其进行排名,从而使我们深入了解了如何发现官方网投和发现想法的挑战。

这对网络官方网投意味着什么?

考虑到没有超链接的网络上书籍,杂志和其他文档的可用性不断增长,查找信息的方法(如 热门段落 这些印刷材料中的内容以及与之匹配的查询字词的标识 关键思想 将来,从与这些段落相关的文本中提取文字可能会在网络上变得相当普遍。

分享是关怀!

关于11条想法“在Google图书官方网投中探索图书之间的连接”

  1. “这对网络官方网投意味着什么?”

    这意味着Google可能已经设法使文章的流行度和出现频率成为与付费链接的最新比较。

  2. pingback:»官方网投引擎新闻摘要3月1日
  3. 我认为这对于任何对作者,书籍或主题进行研究的人都是一个很好的交叉参考工具,无论是用于书籍报告,论文等。

  4. Google图书是与IT相关的图书的绝佳选择。我最近进行了一次vmware考试,并在Google图书中找到了很多资料。

  5. I’我已经使用了很多Google图书,因为我发现在实际从Amazon购买图书之前,它对于预览图书非常有用。认为通行证很棒!

  6. 嗨,彼得,

    我发现自己被流行段落所吸引,从一本书到另一本书。

    嗨,PeopleFinder,

    我担心这可能会阻止不那么受欢迎的书籍和作者的想法被发现,但这很有用。

    嗨,小先生,

    我认为Google图书官方网投在IT图书方面的覆盖面很广,尤其是因为大多数从事此工作的人可能会发现这是他们可能感兴趣的主题。

    嗨,金字塔,

    我觉得我’我开始在官方网投结果中看到更多书籍,尤其是在Google学术官方网投中。一世’我一直喜欢亚马逊的图书预览,而Google确实提供了更深入的了解的机会。购买前先了解一下真是太好了。

  7. 嗨金伯利,

    谢谢。那 ’很好。基于链接流行度的站点价值存在一些严重的局限性。例如,一个站点可能只关注一个非常狭窄的主题,这可能是有关该主题的最佳信息来源,但是它可能没有太多的链接。有关该主题的信息有限得多的站点,但指向它们的链接数量很多,它们的排名可能更高。书籍也可以这样说。

    那里’深入探讨官方网投引擎偏见的论文,探讨了这一点,并基于以下假设做出了一些误导官方网投引擎的方式:

    塑造网络:官方网投引擎的政治为什么重要 (pdf)

    该论文已有几年历史了,但是这些想法仍然很及时。

  8. 谢谢比尔。一世’ll check it out.

    对了我’m lovin’您的新网站设计。特雷’ schweet. *-)

  9. 这是一个有趣的想法,金伯利–我没有’直到我看到您的评论之前,才这样看。图书官方网投看起来有些有趣–我’我要官方网投我最喜欢的短语-

评论被关闭。