Updating 谷歌’的历史数据专利,第2部分– Changing Content

分享是关怀!

来吧’round people
无论你在哪里漫游
并承认水域
你周围成长
并尽快接受
您’会浸透到骨头上。
如果你有时间
值得拯救’
那你最好开始游泳’
或者您’ll sink like a stone
时代他们一直在变化’.

鲍勃·迪伦

Can the rate of change upon web pages influence how 谷歌 might rank pages of a site?

In part one of this series, I looked at how 谷歌’s patent on 基于历史数据的信息检索 专注于 新鲜.

该系列的第二部分探讨了Google如何看待网页上的内容更改,以及这些更改的频率如何影响这些页面在搜索引擎中的排名。请记住,我们不’无法确定Google是否正在使用此专利中描述的过程。但这是可能的。

网络发生变化

实际上,更改在网站上经常发生。页面快速变化的网站的一些示例包括:

1.添加和删除产品的电子商务网站
2. Informational portals such as 新spapers, 新sletter, blogs
3.依靠用户生成的内容进行一致地编辑,修改,更新和添加的页面

当然,还有其他场景。例如,假设您有一个网站。它的页面在Google中排名很高,并且已有多年的历史。您’害怕改变任何东西。但是,您认为如果进行一些更改,则可能会在页面上获得更多的转化。

如果更新页面,那么更改页面的事实会对排名产生什么样的影响?

或者,您拥有几乎每天都会更新的博客。您休假两个星期,然后发生家庭紧急情况,使您离开网站的时间又延长了两个星期。您’已经有一个月没有新博客了。无法更新您的网站是否影响了您的网页在Google中的排名?

内容更新/变更

谷歌’的历史数据专利可以识别页面的变化,并且其中一些页面的变化比其他页面更快。

它还认识到,页面或页面部分或整个网站的某些变化方面可能不那么重要。

例如,如果某人在其网站上展示广告,或使用Java脚本显示RSS feed,并且定期进行更改,则这些更改可能被认为比页面标题更改或锚点更改重要得多。从页面引出的链接的文本。

该专利为我们提供了一个数学公式来讨论内容更改:

U = f(UF,UA)

An “Update score”(U)是使用变化频率和变化量计算的。

An “更新频率得分”(UF)可用于计算文档(或页面)随时间变化的频率。它可以由两次更新之间的平均时间或一段时间内的更新量来确定。

An “Update amount score”(UA)表示文档(或页面)随时间变化了多少。更新量分数着眼于许多可能的变化,并对不同种类的变化赋予不同的权重。

更新量(UA)分数中考虑的更新类型:

  • 的数量“new”一段时间内与文档或网站相关联的唯一页面。
  • 一段时间内与文档或站点关联的新页面或唯一页面的数量与与该文档或站点关联的页面总数的比率。
  • 页面或网站在一个或多个时间段内的更新量(例如,文档的百分比)’可见内容可能会在一段时间(例如上个月)发生变化。
  • 文档(或页面)在一个或多个时间段(例如最近的x天)中更改的数量。

更改后,某些内容可能具有与其他内容不同的权重。例如,以下内容可能被认为是不重要的,可以忽略不计或完全被忽略:

  • Java脚本
  • 评论
  • 广告
  • 导航元素
  • 样板材料,或
  • 日期/时间标签

如果要更新或更改其他内容,例如页面标题和与指向其他页面的链接相关联的锚文本,则应考虑这些更改的频率,最新程度和广泛程度,认为这些内容更为重要。

It’对于某些查询,页面内容可能没有’与内容最近更改的页面相比,最近更改可能更有利。

搜索引擎可以确定查询结果集中的每个页面的内容上次更改的日期,确定这些页面的平均更改日期,并根据以下信息修改页面的得分(正面或负面)页面之间的差异’这些结果中所有页面的更改日期和平均更改日期。

网页内容更改的其他含义

自从历史数据专利首次发布以来,已经撰写了许多论文来探讨网页内容的变化。一世’我们收集了其中的一些列表,这些列表提供了有关Web更改的一些有趣的想法。

有关Web搜索引擎数据库新鲜度的三年研究

哪个搜索引擎拥有最新鲜的内容?这项研究旨在“分析主要网络搜索引擎Google,Yahoo和MSN / Live.com的更新策略。”它介绍了这些搜索引擎在2005年,2006年和2007年的六个星期内如何很好地捕获了某些特定页面的内容更改。

基于信息寿命的爬网调度 (pdf)

一些内容是“ephemeral”可能不值得被搜索引擎抓取,因为到索引时,它可能无法代表其来源页面的内容,例如“quote of the day.”一些内容可能被认为是“persistent”并且可能会在多个页面更新中持续存在,因为该内容会保留一个“持续一段时间。” 博客 posts may be considered 持久的 since they remain around, even though they may be pushed down a blog’的首页或存档中。

Can a search engine crawling program distinquish between 短暂的 and 持久的 content, to focus its resources more upon 持久的 content?

Characterization of the evolution of a 新s Web site (pdf)

通过研究基于新闻的网站的更改的频率,数量和类型,是否可以确定模式?本文确定了连续19周内涉及MSNBC变更的多种模式。通过该研究得出的模型可以帮助描述其他新闻站点的行为吗?本文作者得出结论认为可以。

网页的微观演变 (pdf)

今年在北京举行的第17届国际万维网会议的Google海报探讨了网页快速变化的速度,从而创建了一种模型,用于确定重新访问这些网页的频率。

网络的可发现性 (pdf)

雅虎论文探讨了“历史统计数据来估算哪些页面最有可能产生指向新内容的链接。”

检测页面内容的年龄 (pdf)

网页的某些部分可能以与网页其他部分不同的速率变化。页面历史记录是否可以使用从外部来源中提取的数据来帮助确定页面不同部分的变化率。本文的作者描述了如何做到这一点,以及页面上那些不同的对象如何用它们的更改日期进行注释。

历史能告诉我们什么?寻求与文档历史互动的不同模型 (pdf)

如果我们能够跟踪并看到网站随着时间的变化,我们会看到什么样的好处?如果一个“past web browser”可供访问者使用,以便他们可以随时间查看对网页的更改,对吗?随着时间的推移查看网页更改可能对人们有帮助,对搜索引擎也有帮助。

结论

变化发生在Web上,并且变化率,变化量和页面上更改的内容类型可能会影响网页的排名以及搜索引擎对网页进行爬网的频率。某些变化带来的影响远小于其他变化。

历史数据专利的这一部分侧重于页面内容的更改,但是该专利下还有其他因素,例如点击率,链接的更改和锚文本中的其他因素,这些因素也可能在网页排名中起作用。这些将在本系列的后续部分中进行探讨。

分享是关怀!

关于15条想法“Updating 谷歌’的历史数据专利,第2部分– Changing Content”

  1. 威廉,真是内容丰富的帖子。

    谢谢你的分享。

    安吉洛·帕尔玛(Angelo Palma)

  2. 如果页面编号了,并且“最新”内容始终在第一页上,那么该网站怎么办?每次发布新的内容时,整个网站上的每一页内容都会移动*下一个*编号更高的页面,而最旧的内容现在出现在全新的URL上,比原来的最高数字高一位。以前使用。

    我不知道当有传出链接的任何页面的URL始终更改时,Google怎么能正确分配PR:也许每天甚至每天几次。我确实知道,当您单击SERP中的链接来访问该网站时,您将永远找不到当您到达该站点时期望找到的内容。那’,因为内容已经(可能多次)移动到新的URL。

    我在许多网站上看到了这些问题,设计师’似乎无法理解此类系统对其站点造成的损害。

  3. 公式中可能应该包含UT(更新主题)组件。由于某些主题和信息类别因其性质而比其他主题更频繁地更改。

    例如:名人八卦等话题将每周7天频繁更改。商业和股票信息等主题周一将更频繁地更改 –周五,周六和周日的频率较低。虽然诸如族谱研究或一些变化缓慢的学科之类的话题我的变化频率要低得多。

  4. 有趣的东西可以肯定。在我的许多爱好中,这些文件都接近最高。内容生成器,链接构建器等还有很多东西(例如基于短语的东西)对于SEO窥视几乎是必读的。了解(潜在)历史排名因素是IMO的关键。

    L8TR–谢谢你早读… always up for HRFs.

  5. 我已经看到了对网站进行重大更改的结果。占用5页的站点并添加20页的内容可能会使搜索引擎陷入困境。

  6. 嗨,g1smd,

    令人惊讶的是,某些人将建立机制来构建网站的工作原理,以及这些机制可能对索引和搜索引擎非常不利。它’就像正在使用的内容系统的创建者’与围绕其站点的Web框架保持联系。

    我在文章结尾添加了许多其他文章,这些文章探讨了搜索引擎在试图跟上快速变化的页面,试图使索引保持最新内容时所面临的一些挑战。爬网。

    例如,一位在MSNBC研究内容变化的人,“新闻网站发展的特征,”试图创建一个模型来帮助索引其他新闻门户。 谷歌论文还讨论了模型的创建,以帮助尝试在快速变化的网站上捕获信息。但是这些模型可能会受到您所描述的那种设置的挑战。

  7. 嗨,戴夫,

    很高兴看到您停下来并对这篇文章发表评论。我知道您会发现基于短语的索引和我一样有趣,并且我完全同意,这是SEO相关人员应密切关注的主题。

    谢谢!

  8. 嗨,海顿,

    那’这是一个很好的例子,也是一个相当激烈的例子,尽管我可以’t say that I haven’我也没有看到发生这种情况。我想在这样的情况下,我们应该期望排名会发生重大变化。

    我喜欢这份涉及内容变更的专利申请,它为我们提供了一些使用的语言(或至少是一个数学公式),可以让我们思考何时涉及网站变更,以及关于如何更改内容的想法。搜索引擎可能会将某些更改与其他更改区别对待。

  9. 罗伯特你好,

    好点。我们’在专利中给出了一些细节,但是它涵盖了如此广泛的变化(这就是为什么我’我会在不只一个方面返回它),’不要深入很多。

    定期更新的博客可能不会’从这些变化中获得很大的推动–尽管它可能在某些主题上有所帮助,但前提是新内容可能包含更及时的信息。

    您’re right –新鲜对于新闻很重要,而我’在Google提交的另一项专利申请中,至少有一个参考文献指出,这可能是确定哪些新闻报道出现在搜索结果中的排名信号之一。 (How 谷歌 Universal Search and Blended Results May Work)

  10. 那里有很多值得深思的地方。我毫不怀疑更新频率会产生影响。但我想像是一个博客,其中主页不断变化,每个条目页面的内容权重更高。

    我想象的另一面是它也向后兼容。我的意思是,如果某个页面被吹捧为新闻页面,并且从未更新过,那么它将失去所有相关性。这是由于新闻需要是最新的并且经常更新。一种“news page” that hasn’3个月内肯定有更新’被认为是最新的吗?

  11. 威廉,这就是事实…人们不了解网络的框架…他们是小企业主,还有其他事情要担心。这就是为什么他们雇用外部公司来照顾这些事情的原因。对我们来说很幸运。 ðŸ™,

  12. 嗨,海顿,

    我确实认为有些小型企业主致力于学习Web框架的功能,并解决所有可能的问题。

    我知道,对于某些人来说,最好不要利用他们的时间和资源来深入研究搜索引擎的工作方式,以及这些知识如何帮助他们进行在线业务,但与与小企业主合作的人可能会很好做。无论如何,与小型企业合作并能对他们的业务成功产生积极影响是非常有益的。

评论被关闭。