Google作为互联网档案馆吗?

分享是关怀!

什么人说当天美国总统奥巴马在2008年当选总统后的人气?还是人们在网上对芝加哥白袜队在2005年赢得世界大赛的反应如何?还是2010年4月20日有关海湾石油泄漏的早期新闻?

在Google上搜索时,您可以点击“more search tools”在左列中,然后输入“from” and “to”自定义范围部分中的日期。如果您想查看选举后第二天在搜寻巴拉克·奥巴马(Barack Obama)时Google上显示的页面,则可以在表格和字段中输入11/4/2008。要查看Whitesox系列结束后第二天在Google上哪些网页排名,请在日期范围文本框中输入2005/10/28。

A custom 日期范围 search at Google for Barack Obama on November 4, 2008.

如果单击出现的任何结果,您将看到结果中列出的页面的版本,与它们今天显示的一样。如果单击这些条目的Google缓存链接,则会看到这些页面的最新缓存版本。但是,如果您看到所选日期范围内显示的页面副本,该怎么办?如果Google决定创建网络档案,该档案会显示网页的较旧副本并使用自定义日期范围来帮助您查找这些网页,该怎么办?

A Google patent granted on April 20th gives us a glimpse at the possibility of Google being able to show us an 封存 of the Web.

As part of a series of patent filings 从 former Google employee Anna Lynn Patterson on phrase-based indexing, it probably shouldn’令人惊讶(几年前,我在(Google归档文件即将出现?)。加入Google之前,安娜·帕特森(Anna Patterson)为 互联网档案馆,以便搜索者可以查看存档中列出的页面的较旧版本’s index. 那 search tool, known as “Recall,” was 已移除 从 the 互联网档案馆 around the time that Google was reported to have licensed some technology 从 Dr. Patterson, and then subsequently hire her.

专利 is:

信息检索系统,用于归档多个文档版本
由Anna Lynn Patterson发明
分配给Google
美国专利7,702,618
2010年4月20日授予
提交日期:2005年1月25日

抽象

An information retrieval system uses phrases to index, retrieve, organize, and describe documents. Phrases are identified that predict the presence of other phrases in documents. Documents are indexed according to their included phrases. Index data for multiple versions or 实例 of documents are also maintained. Each document instance is associated with a 日期范围 and relevance data derived 从 the document for the 日期范围.

专利’的描述主要致力于有关基于短语的索引的详细信息,但同时也跳入了文档的存档版本如何存储和排名的问题。

目前,Google会收集它发现要显示在缓存副本中的页面的最新副本,并且包括指向最新缓存文档副本的链接以及页面的搜索结果列表。 Google证明使用缓存的页面副本是一种使人们可以在直接访问页面时遇到问题的方式访问页面的一种方法,例如在关闭时托管的服务器。谷歌赢了’t缓存使用meta 存档标签的页面的副本,如下所示:

<meta name=”googlebot” content=”noarchive”>

将 Google start showing 封存d copies of documents?

许多网页由于多种原因会随时间变化,包括新闻网站,一天可能会多次更新,并且需要订阅才能查看较旧的文章。由于新的所有权,新的设计,新的业务模型,更新的内容以及对较旧内容的更正,其他页面也会更改。

同样,由于许多原因,许多网站所有者可能不希望人们访问其页面的旧版本。

How would you feel about Google providing a historic 封存 of the Web, with the ability to search and view older versions of pages online?

分享是关怀!

44个想法“Google作为互联网档案馆吗?”

  1. 嘿,有人告诉他们等
    这是我的博士学科ðŸ™,
    I think they started to work on it a looonng time ago. They will come up with a complete 封存 framework.

  2. 我宁愿怀疑谷歌’打算应付“cemented”结果问题ðŸ™,。在Big Daddy更新之后,他们从未真正解决过此问题。

  3. 我记得几年前曾读过,由于许多媒体技术用来存储它们,因此我们的政府保存的档案可能无法用于子孙后代。

    也许他们应该找Google之类的商业公司来存档它们,因为他们已经有了一个系统。我意识到,像这样的事情和隐私问题肯定会引起无法衡量的繁文tape节,但是让一家商业公司经营的档案馆以钱的形式看待数据的保存似乎是这样的与联邦雇员制定的某些方法相比,这是一种更长期的解决方案。

    最终,所有信息都将放在“net”不管是谁我认为‘手写在墙上’ on this one.

  4. 嗨,ZP,

    看起来Google可能已经期待了多年这样的存档,这可能是部分原因,为什么安娜·林恩·帕特森(Anna Lynn Patterson)大约7年前加入了Google,此前他创建了当时为Internet Archive开发的最大的搜索引擎之一。对于他们来说,从商业立场,法律立场,信息共享立场提供这样的存档是否有意义?一世’不确定,但看起来他们确实在做一些工作,这些工作确实会使将来提供更可行。

    例如,Google确实有一个新闻档案搜索,它会导致收取基于订阅或每文章的费用来查看某些结果。

    Allowing people to search 通过 a custom 日期范围 also makes it more likely.

  5. 嗨鲍勃,

    那 is one of the issues that is raised in the patent itself, though it really doesn’t提供有关Google如何存储所有这些页面的答案。

    A snippet 从 the patent that describes that problem:

    传统信息检索系统的另一个问题是它们只能索引互联网上可用文档的相对较小的部分。目前,据估计,当今互联网上有超过2000亿个页面。但是,即使是最好的搜索引擎也只能索引6至80亿个页面,从而错过了大多数可用页面。现有系统的索引能力有限的原因有很多。最重要的是,典型系统依赖于倒排索引的变化形式,该变式为每个术语维护一个术语(如上所述),在该页面上列出该术语出现的每个页面,以及位置信息,该信息标识了该术语在该术语上每次出现的确切位置。页。索引各个术语和索引位置信息的组合需要非常大的存储系统。

    许多用于搜索Internet的信息检索系统的另一个问题是它们无法归档随时间变化的页面。按照惯例,大多数Internet搜索引擎仅存储给定页面的当前实例(或版本)的相关性信息,并在每次重新索引页面时更新此信息。结果,给定的搜索仅返回满足查询条件的页面的当前版本。结果,用户将无法搜索页面的先前实例或特定日期间隔中的当前页面。同样,当评估搜索查询或呈现搜索结果时,搜索引擎同样不使用与版本或日期相关的相关性信息。

    因此,期望提供一种信息检索系统,其可以有效地索引数百亿,最终索引超过一千亿的内容,而无需现有系统的大量存储需求。此外,期望提供一种信息检索系统,其可以索引和检索文档和页面的当前实例和先前实例。

    归档页面的旧副本可能会自行占用大量空间。归档与这些页面相关的相关性和重要性数据会大大增加空间需求。该专利描述了一种主要索引和次要索引系统,其中主要索引系统可以存储有限数量的页面的相关性和重要性数据,并且次要索引听起来有点像“supplemental”Google可能已经使用多年的索引或扩展索引。

    在Google下索引和存档页面的功能可能会有所提高’在新版Google文件系统上的工作,该文件似乎是Google Caffeine更新的一部分,但希望在那里’Google会继续在蒙大拿州为更多服务器提供空间。 ðŸ™,

  6. 嗨,马克,

    那’s a problem that I have some personal experience with 从 my days in the 90s and early part of this century working with Delaware’法院系统,并探索维护和更新我们记录的方法。

    用于备份和维护记录的技术可以很快过时,例如12英寸的磁光软盘。

    但是,许多机构也非常关注该数据的安全性,并限制人们访问该信息的能力。我不’认为许多人都希望通过Google之类的第三方来通过网络获取大部分信息。

  7. 在过去的几年中,使用Google进行研究是一个相当大的问题。搜索引擎将根据他们当时在缓存中的内容(而不是两年前的页面)向您显示信息。

    看看Google的天才是否允许用户挖掘他们存储的数据并在诸如纽约时报网站之类的网站上进行一些词汇比较将是很有趣的。

  8. I’从未真正注意到过Google搜索的左侧边栏。可能是因为它的新功能,我’m过去只是在搜索栏中输入我的搜索关键字,然后按Enter。现在,我知道可以那样使用它,那么我’我现在很欣赏这个新的Google搜索栏功能。

    关于在线显示旧版本,可以’他们只是显示更新的版本吗?

  9. 我真的很喜欢Google最近在做什么。我认为外观要干净得多。看来Google最近已连接到各种事物。它比如今的常规搜索要深入得多。到目前为止,我认为这是一件好事。我想知道G将来会怎样。他们将自己分散到许多不同的事物中。

    I always used the Way Back Machine but I think I am going to have to try out this new 封存 feature.

  10. Google内另一个强大的搜索功能。我想知道排名是否会反映当时某些关键字的排名,还是仅按日期排序。

  11. 罗伯特你好,

    It would be really interesting to be able to use data 从 different versions of sites like the New York Times for many different kinds of research. Imagine an API that would allow you to do things like capture that information and analyze trends, build timelines, and visualize the data, and possibly even compare it to information on a topic 从 other web sites. Thank you.

  12. 嗨安德鲁,

    我想知道有多少临时搜索者最终会看到侧边栏中的新功能。

    It’新界面可能会影响使用它的人们进行搜索的方式,因此值得进行探索。

    Presently, if you do a search using the custom 日期范围, you do see results and snippets 从 the time period that you’已指定,但是如果单击显示的链接,则会看到这些页面的当前版本,这意味着如果页面已更改,您可能找不到要搜索的内容。

    在上述我的巴拉克·奥巴马(Barack Obama)搜索中,其开始日期和结束日期设置为2008年11月4日,第三个结果是《华盛顿邮报》的页面,该页面自大选后的第二天可能已经改变。可能是,点击它的人会对结果感到失望,因为它没有’t匹配页面标题和代码段中的描述。

  13. 嗨,CPlus,

    现在可以通过自定义范围进行搜索了,但是Google没有’t显示与该搜索一起使用的页面的较旧版本。它’他们可能会,但是我’我猜测即使他们现在可以处理这样做的技术方面(例如所有这些文档的存储),也可能会有其他阻碍因素,例如围绕版权的问题以及这些页面的所有者对Google的感觉归档其内容。

  14. 嗨,弥敦道,

    该专利建议Google在自定义日期范围搜索中显示页面的排名,因为这些页面是在该日期范围内排名的,而不是现在可能会排名,搜索者可以选择按日期和时间对这些结果进行排序。至少对于那些在那段时间内被认为更重要的页面。二级索引所包含的网页的排名信息可能较少’t considered as 重要, like a 补充的 index.

    即使Google将排名信息限制为可以考虑的一定数量的页面“important,” it means that the search engine may not only 封存 versions of documents 从 the past, but also ranking information for those pages 从 the past as well.

  15. 嗨,迈克,

    您’重新欢迎。谷歌不是’t显示实际的存档页面,但是在那里’他们可能会这样做。片段的排名确实使用了较早的相关性信号–这本身很有趣。

  16. Whats the main befefit of that 封存. And why google isn’t showing 封存 page if they already done it?

  17. 嗨阿拉曼,

    好问题。

    由于许多网页会定期更改,因此能够在网络上搜索过去可能在线但现在不再可用的信息可能会有所帮助。

    例如,那里’s以上有关反应奥巴马在我的截图链接到华盛顿邮报的文章在选举后当选美国总统的日子。它’文章可能不再在线,或者仅对网站的付费订阅者可用。如果Google创建了此存档,它可能会向我显示该页面的缓存副本,或者将我引导至一个页面,以便我可以付费访问该文章(《华盛顿邮报》)。

    Google之所以成为Google的一个可能原因’即使显示存档页面,即使它们允许您使用自定义日期范围来搜索页面,并向您显示这些较早页面和较旧版本的页面的摘要,也可能会导致网络发布者可能会担心这样的存档可能会侵犯版权。如果搜索引擎可以找到某种方式来吸引网络发布者,例如在某些情况下使那些内容提供商获得付费的访问方式,则可能会使Google更有可能开始显示存档页面。

    It’除了版权问题之外,还有其他原因也是有可能的,但我认为这是他们面临的最大绊脚石之一。

  18. Thanks Bill that exactly what i thought. 您 have teach me a lot. so now i am another Bill. lol

  19. 我想我们可以支持或反对归档的潜在利益和危险。我认为将有一个标签来防止归档这一事实将解决版权问题(与noindex现在可以正常使用一样)。我认为Google已经意识到有机会提供相关的社交服务(类似于archive.org上的备用机器,但很有用:)。它’s not like they don’还没有信息–我很欣赏他们会与我们其他人分享这一点!

  20. 嗨亚伦,

    网络上的版权法仍然处在一个非常灰色的区域。我的许多论点’报纸所看到的是,像Google这样的网站应该寻求许可,而不是被迫采取某些行动,例如在其网页上添加noarchive元标记。传统上,’是版权的运作方式。

    I do think that providing this kind of 封存 could potentially be very beneficial as a social service, but it has some serious issues as well, concerning copyright, privacy, protecting consumers 从 malware that may have been introduced to older versions of sites, and more.

  21. 随着咖啡因的最新完成,以提供更快的速度并在SERP中提供更多权重以实现实时结果,我认为互联网档案馆可以拥有它’通过使用自定义日期范围放置,默认情况下作为发布日期传递的索引结果没有任何重大冲突。

    直到最近,对于称职的搜索者或像我们这样的行业内的搜索者来说,还不算什么,当搜索信息和内容时,仅仅是因为过时且经常无效,这在某种程度上令人沮丧。随着信息量的迅速增长,法规,法律和程序的变化,我希望实时结果可以超越按页面/域年龄和按与搜索词相关的加权权限而在日期上排名较高的内容,同时提供互联网档案或内容和数据的先前版本,无疑将对各种参考资料和学生/研究非常有用。

  22. Hmmm. One bill is enough. 您 are the one friend. Really you are great asset in seo world.

  23. 哇,好点我知道“more tools” button, but didn’t think to search certain dates and use it as an 封存 tool.

    我真的很喜欢过去一周或几天的时间,特别是在查找有关编程的信息时。处理计算机或编程已有2年的历史了–在Google中搜索该区域的最新信息确实很有帮助。

    我想知道高中生在对某些主题或时间段进行研究时是否意识到此工具?

    -人

  24. 嗨,杰夫,

    试图在搜索结果中显示最新信息,同时又试图显示最相关/最重要的结果可能会给搜索引擎带来挑战。最近的结果是否比提供有关主题的信息的质量和/或数量更高的结果更好?还是更好地显示相关性更高的结果,并使其更易于显示最新的结果,但是需要做一些工作,例如选择日期范围?一世’我不确定答案如何,但是我很喜欢关于归档概念的事情,在这个归档中,人们可以在他们选择的时间段内看到较旧版本的页面。

  25. 嗨,盖伊

    我喜欢使用“more tools”并查看最近的结果。

    实际上“archive” piece of this isn’发挥作用,我们不’我不知道Google将来是否会添加它,但我同意它可能是很好的教育资源。

  26. 嗨,比尔,

    您提出了一个很好的观点,搜索引擎将很难确定内容(a)的最新版本的权重是否超过内容(a)的质量/权威。最终,这可能严重依赖于内容的性质和主题内容更改的速度。我无法想象一个确定排名的简单算法公式在这种情况下会起作用。

  27. 我个人不会 ’仅仅因为事情因各种原因而发生变化,Google才会这样做。能够找到较旧的页面可能会导致站点所有者及其访问者之间的误解。

  28. 嗨,杰夫,

    当您尝试找到衡量此类事物的方法时,对页面进行排名会变得更加复杂。 Google已发布了一些专利文件,其中考虑了使用概率方法对相当复杂的页面进行排名,使用了大量的用户行为数据,其中包括“instances”或包含用户,查询和页面的功能的三元组。

    我最近提到了其中一项专利以及可能在我的帖子中收集的数据类型 How Google Might Suggest Topics for 您 to Write 关于,在带有标题的部分中“查询统计和文档统计。”使用此类数据来决定事情,例如人们是喜欢查看某个主题的最新信息还是最权威的信息,可能是Google会使用的一种方法,但是您要注意的是,’t be simple.

  29. 凯文,你好

    我同意你的观点。有人更改网页内容的原因有很多,其中一些更改是受诸如删除对某人造成伤害的内容或以某种方式侵犯版权的内容之类的启发。与新设计或添加更新材料相比,页面更改的原因更多,使人们能够查看页面的较旧版本可能并不总是一个好主意。

  30. I’一直在使用左栏“date range”我的研究工具– it’找到有关主题的第一篇文章或共同持有的观点的原始来源时,这是无价的。您可以输入一个“end date”范围内,并列出该日期之前创建的所有页面,等等。
    我没有意识到该工具列出了页面“used to be ranked” –我认为它只是按页面首次出现在索引中的顺序列出页面。你确定吗’的排名历史,而不仅仅是根据页面的年龄对当前结果进行调整?

  31. 大英图书馆已经将英国的网站存档了很多年了。他们在一个‘selective’方式,而不是一揽子方式–他们的确是有道理的,在大约50到100年的时间里,将有大量仅在线发布的数据可能永远消失,因为一旦网站发布,就不会有副本。’不再存在。如果Google确实做到了这一点,那将是一个了不起的资源,也许现在还不算很多,但是要花20或30年的时间–这确实是一个问题,他们将在哪里存储它,我可以感觉到‘google island’被他们早晚购买,只是为了填充数据中心!

  32. 嗨,亚历克斯,

    I’m finding the 日期范围 tool pretty useful, too.

    您 actually have two choices when you view the 日期范围 result. 您 can order them 通过 ranking or 通过 the age of the page, or as Google refers to them “Sorted 通过 relevance” or “Sorted 通过 date.”默认情况下,您会看到结果按相关性排序。

  33. Google一直很好地将自己定位为您与您之间的中间人’re actually looking for. 我认为它’下一步将是淘汰网站管理员,而不会完全疏远他们。

  34. 嗨,威尔,

    We’重新可能会看到搜索引擎继续提供更多“direct”响应人们未来搜索内容的信息,例如提供事实问题的答案或显示定义。搜索引擎确实提供了该信息源的链接,有兴趣的人可以按照这些信息找到更多信息。您’re right though –Google必须谨慎行事,不要疏远网站管理员。

  35. 我喜欢像ICSC这样的组织怎么说“low quality”内容会威胁到记者的工作。确保像文章工厂这样的文章生成软件(http://bit.ly/aVcMgc)产生的质量低劣的内容会在网络上乱扔垃圾,但是现在,记者们纷纷声称我们正处于内容危机之中!!抱歉,但多年来我一直在阅读印刷媒体中的故事,并想说内容危机并没有’是新事物。坦白说我’d至少要花掉至少一到两个宝石才能遍历整个故事。需求媒体’eHow网站实际上包含许多有用的信息。我不’不在乎他们创建内容的动机是否是链接,还是他们低成本内容文章的一半是纯粹的。公务员制度委员会–你和你有机会–承认,公众正在收回印刷机,而您不这样做’t like it.

  36. 嗨,约翰尼豪斯,

    I’对面的m在这里弯曲。我不’诸如需求之类的网站会搅动内容,但我希望更高质量的内容的确能找到顶部,而不是埋藏在“just good enough.”我很喜欢Google可能会公开其发现结果不充分的查询和主题,以便愿意创建出色内容的人可以使用它们。

  37. 我没有’不知道您可以按日期在Google上搜索!他们不’保留旧网站的存档版本吗?我不’认为许多网站公司都希望使用该功能。

  38. 嗨,彼得,

    那’的能力已经存在了一段时间。我可以’不要说我可以确切指出Google何时提供该功能,但我相信’现在已经有两年多了。

    No 封存d copies of old websites at this point, but I wouldn’如果他们在将来的某个时间提供该服务,请不要感到惊讶。

评论被关闭。