Revisiting 谷歌’

分享是关怀!

可以说专利具有家族历史吗?如果是这样,那么这篇文章将向一位鲜为人知的祖先介绍网络上与搜索相关的专利方面写得最多的人之一,以及该专利的一个新孙子。

的 patent is 谷歌’s 信息 retrieval based on 历史数据,该档案于2003年提交,并于2008年获得授权。当它于2005年作为未决专利申请发布时,在搜索社区的论坛和博客中引起了极大的轰动。

该专利有两个重点,它们都利用了随时间推移记录站点更改的优势。一种是帮助识别网络垃圾邮件,另一种是帮助避免响应查询而返回过时的文档。它引发了SEO之间的问题,例如域和链接的年龄有多重要,以及:

  • Does 谷歌 favor fresher sites over older sites, or older sites over fresher sites?
  • Even more, how does 谷歌 weigh the age of a website?
  • Are the search engines looking at whois data to see who owns websites, and if there has been a change of 拥有者hip?
  • 如果网站的内容发生更改,并且指向该网站的锚文本仍然保持不变’不再相关,它还会在锚文本中排名吗?
  • 如果你 buy a website and make changes to it, will the PageRank for that site start to evaporate or expire?

那’真的只是在刷表面。

当时引起众多关注的一件事是,该专利的一位指定发明人是Google’s Webspam的负责人Matt Cutts,他在社区中广为人知,因为他代表Google与论坛成员进行了互动,并参加了会议和新闻界。 (实际上,专利中列出的发明人的整个名册就像是一支由搜索工程师组成的全明星团队。)

另一个是,它说诸如域名注册的时间之类的信息可能表明该域名是否旨在成为垃圾邮件站点。–垃圾邮件发送者通常只注册一个网站一年,而更多的人“serious”关于他们的公司注册他们的网站的时间更长。

自专利发布以来,马特(Matt)多次否定了这一主张,但GoDaddy等托管企业抓住了这一主张,并以专利背后的FUD(恐惧,不确定性和怀疑)为卖点,试图获得专利。人们注册其域名超过一年。不管它是否成立,他们都认为可以将专利中的信息用作获取更多利润的途径。

的 patent reads in part like a list of ways that 谷歌 might try to catch people engaging in web spam.

专利’s Father –基于历史的信息检索 信息

那里 are some patents I recommend anyone interested in learning about SEO should read.

鲜为人知 第一项PageRank专利 是其中之一。

合理的冲浪者专利 是另一个。

一上 历史数据 我上面链接的是三分之一。

如果你 can grasp the points and ideas in those, and the assumptions behind them, you’在学习和执行SEO时要有良好的基础。

I was doing research on a newer patent filing related to the 历史数据 patent (more on that below), when I noticed that there was an earlier provisional patent filed that was also related, 通过 the name of 基于历史信息的信息检索 (pdf–申请号60 / 507,617)。它涵盖了与所授予专利几乎完全相同的领域,但是它使用的语言是’无需太多合法的巨型文件就可以轻松掌握。

如果你’重新自学SEO或在您工作的地方制定SEO培训计划,这绝对不会’不得与他人共享文档,进行讨论和辩论,尝试弄清Google今天可能会使用的文档,或者如果您没有阅读文档,请重新访问该文档’之前(甚至即使有)也有机会花一些时间。

基于文档内容更新的文档评分

是否想访问看起来可能是1990年代设计的网站?在Google上搜索[权利法案]之类的字词,而以前的旧网站’他们发现页面主要内容的实质性变化很可能会受到搜索结果的青睐。

原来发生了一件有趣的事 历史数据 授予专利的过程中。 谷歌提交了一些专利申请,可以说是该专利的孩子。那些人通过了美国专利商标局,并获得了完整的授权专利。

我正在浏览本周最近发布的专利申请,并发现其中出现的其中一项专利的名称,并附有一组完全不同的权利要求。该专利仍然具有原始描述,但是权利要求集中在以不同方式识别页面的哪个部分以查看该页面已更改了多少。

专利申请是:

基于文档内容更新的文档评分
由Anurag Acharya,Jeffrey Dean,Paul Haahr,Monika Henzinger,Steve Lawrence,Karl PFLEGER和Simon Tong发明
Assigned to 谷歌
美国专利申请20110258185
2011年10月20日发布
提交日期:2011年6月30日

抽象

系统可以确定文档的内容随时间如何变化的度量,至少部分地基于文档的内容随时间如何变化的度量来生成文档的分数,并就至少部分地基于该分数来获取至少一份其他文档。

就像我在本节开头提到的那样,如果您搜索一些查询词,您可能会注意到,针对这些查询返回的文档可能会让您觉得自己花了一些时间过去。搜索[权利法案]是其中之一,在搜索结果顶部返回的页面平均年龄相当老。毫无疑问,其他一些查询(例如搜索[新的复仇者电影])将在Google中显示非常新的页面’s search results.

背后的原始目的之一 历史数据 专利是为了避免在过期时显示陈旧的文件’不适合。但是,对于诸如[权利法案]之类的主题进行搜索,较旧的文档可能是搜索引擎可以返回的最佳结果。有了这个 文件内容更新 在专利中,重点在于根据搜索结果中列出的文档的年龄创建得分,并使用该得分基于响应查询返回的一定数量的顶级文档的平均年龄来偏爱文档。

这项新专利与旧专利在几个方面有所不同。首先,原始版本在有关指向文档的锚文本的声明中有很多语言,并且被打分的页面与锚文本的匹配程度如何,而在新版本的声明中对锚文本的提及却消失了。那不’并不意味着Google可能不是’不再做,而是该专利版本侧重于其他方面。

区别在于它在网页上的显示位置。该专利的原始声明告诉我们,Google可能会忽略“boilerplate” language it finds on pages, and the changes to those. In the newer version, instead of mentioning the word 样板, the patent tells us that it might calculate the frequency with which words appear on a page (excluding stop words), and look at changes to the section of a page that contains the most frequently used words. In pages about the Bill of Rights, that’通常是复制修订内容的页面部分。

因此,自1990年代以来,包含《人权法案》全文的页面可能已经发生了一些变化,但这些页面上对美国宪法的那些修正案的实际文本不应’t have. 的 “last modified”找到内容的HTML文件的日期可能显示的是最近的日期,但是对于90年代以来一直在线的那些页面,Google为其查找的日期是它们首次在线时或Google首次变为在线时通过抓取或其他一些过程了解它们。

结论

我很高兴找到历史数据专利的早期临时专利版本,因为它更易于阅读,我’d绝对建议对搜索引擎的工作方式感兴趣的人通读它。可能不是它所涵盖的所有内容都已由Google实现,但是它提供了一些很好的示例,说明了在索引中对页面进行排名时,搜索引擎可能会做的事情可能并不十分明显。

的新版本 文件内容更新 出于某些原因,阅读专利也很有趣。其中之一是,它显示了当较旧的内容可以更好地回答所服务的查询时,保持较旧内容的可用性和可用性的重要性,并且以有意义的方式更新内容可能对于最可能由较新的内容提供服务的查询很有帮助。 。

例如,如果您想对[世界系列]一词进行良好排名,则最好显示新鲜的内容(尝试搜索),因为Google似乎对该查询的排名更高。

知道您何时会有所帮助’重新进行关键字研究,您可能选择的查询字词是偏爱较旧的内容还是较新的内容。

分享是关怀!

关于15条想法“Revisiting 谷歌’”

  1. I’会接受您的建议,并将与我的SEO合作伙伴讨论。这是一个广泛的话题,但是’值得学习。谢谢! ðŸ™,

  2. Bill,这是为了回应:“Are the search engines looking at whois data to see who owns websites, and if there has been a change of 拥有者hip?”

    前几天在WMT下发现了一个错误“Labs” where 谷歌 has enabled custom search (CSE). Using the tool to perform a query on a particular verified site in WMT would return results from our other verified sites which resided on the same C-block AND displayed same 拥有者hip in Whois.

    的 bug was reported and acknowledged as such 通过 谷歌. Other sites using shared hosting performed normally.
    我觉得很有趣。

  3. 很棒的文章。我从来没有关于这项专利的新知识。它提出了一些有关如何优化我的网站的有趣的SEO问题。我想知道传入链接的年龄是否也会在“historical data”算法的一部分。

  4. 传入链接的年龄应该在历史数据中起作用,搜索引擎与IP块所有者一起查找whois详细信息是他们已经做了一段时间了,这是由于垃圾邮件发送者使用不同的IP块来建立网站托管链接而建立的,您仍然经常发现人们想要那么多不同的C类IP地址供SEO使用。

  5. 谢谢!一世’我跟MLIS(Master’在本周的图书馆和信息科学课程中学习,该信息非常有帮助。我没有’看了多年的专利。有点像(聪明)孩子的读物’s time capsule.

  6. 嗨,GMGMenchie,

    该专利确实涵盖了Google的许多可能方法,而且我认为’这是讨论SEO及其工作方式的一个非常有用的话题。如果我要写一本关于SEO的书,’d考虑将一章围绕其中心。 ðŸ™,

  7. 嗨里克,

    那是一个令人着迷的错误,它使您想知道Google如何在其自定义搜索引擎的网站站长工具实现背后混淆了布线。

    最近一直在考虑Google应该为Google网站站长工具提供一个单独的报告层,以便’t “owners”的网站还可以验证其与网站的关系,并有权访问该信息,但可能无权访问网站站长工具中的某些控件。

  8. 嗨,理查德,

    谢谢。它涵盖了许多博客和论坛中讨论的广泛问题–有些在发布之前就已经讨论过,有些在人们听到或阅读了专利后就开始讨论。

    传入链接的年龄可能会在搜索引擎如何感知页面或站点方面发挥某种作用。相反,讨论了一些类似问题的Microsoft专利讨论了进行链接的网站的年代,以及如何将较新的网站视为更成熟,因为它具有来自较成熟网站的链接。

    看到: 域名年龄会影响搜索排名吗?

    有时,搜索专利背后的乐趣之一就是’t它指出了您可能会采取的可行步骤,但提出了您可以考虑和尝试的问题。

  9. 李嗨

    我阅读了泄露的Google副本 ’的人工审阅者指南在Web上流传了一段时间,它建议站点评估者也应在可用时查看Whois信息。

    我不’我不知道使用不同的C块会有所不同,但是我’我们已经在很多地方看到了这一点。

  10. 嗨,迈克,

    我猜这取决于所使用的查询。美国职业棒球大联盟网站在[棒球]上的排名相当不错,但是有很多网站的排名都高于美国职业棒球大联盟[棒球票]的首页,包括gottickets.com页面(我没有’t go check out).

    您是否认为这与历史数据或其他数据有关?一世’我不确定我会去mlb.com买球赛的门票,但是’我肯定会提出更多的信息性问题。

  11. 嗨安,

    您’重新欢迎。 “历史数据”专利给我读来,好像一群非常有见识的人聚在一起,以思维方式映射了不同的方式来解决与网络垃圾邮件和陈旧内容有关的问题。我之所以喜欢它,是因为它从许多不同的角度审视了问题,并提供了有关如何使用各种信息的想法。

评论被关闭。