新熊猫更新;新熊猫专利申请

分享是关怀!

谷歌’s Pierre Far announced on his 谷歌+ page that 谷歌 was releasing a new Panda update that supposedly included some new signals that could potentially help “更精确地识别低质量的内容。 ”

The 谷歌+ post also tells us that this change can help lead to a “高质量的中小型网站的多样性更高,排名更高,这很好。”

一项新的专利申请展示了一种基于短语的内容质量评分方法。有关该专利申请的更多信息,请参见以下内容,但可能与此更新有关。

因此,对于某些过去受Panda影响的网站,听起来此Panda更新版本可能是个好消息。

我浏览了由Barry Schwartz链接的一些论坛主题’在搜索引擎圆桌会议上的帖子, 谷歌 Panda 4.1 Now Rolling Out; Aims To Help Smaller Web Sites

在一个帖子中,一位发帖人说他注意到从9月19日开始其网站的访问量发生了变化。另一个帖子中有人建议更改是针对旋转和内容不佳的。

I noticed that Navneet Panda, whom 谷歌’熊猫更新(Panda Update)得名,最近又发布了另一项专利。当第一个带有名字的专利问世时,我问是否 熊猫专利。随着熊猫的许多更新(和“数据更新),该算法的至少一项更改可能已在该专利中进行了描述。内容质量评分的最新更新可能是我们现在所看到的更新的原因。

专利申请在:

预测场地质量
由Yun Zhou和Navneet Panda发明
美国专利申请20140280011
2014年9月18日发布
Assigned to 谷歌
提交日期:2013年3月15日

抽象

方法,系统和装置,包括编码在计算机存储介质上的计算机程序,用于预测站点(例如网站)的质量度量。

在一些实施方式中,该方法包括获得多个先前得分的站点的基线站点质量得分;

  • 为包括先前评分的站点在内的多个站点生成短语模型,其中,短语模型定义从短语特定的相对频率度量到短语特定的基线站点质量评分的映射;
  • 对于不是先前得分站点之一的新站点,获取该新站点中多个短语中的每个短语的相对频率度量;
  • 使用新站点中短语的相对频率度量,从短语模型中确定新站点的总站点质量得分;和
  • 从总站点质量得分中确定新站点的预测站点质量得分。

该专利描述了一种短语算法的使用,该方法将页面中的内容分解为令牌(单个单词加上诸如标点符号之类的东西),并在这些页面上计算短语的频率,以计算出每个页面的得分。

专利没有’t详细解释什么“phrase” is, like 谷歌’s “短语-based indexing patents do. We have no idea if 谷歌 ever used those patents, but it is possible.

页面上的令牌中出现的错误可能会被计入,而不是在规范化过程中忽略。一些非常罕见的令牌(没有’根本不会出现在网络上)在此质量得分计算中可能会被忽略。

锚文字 指向页面的字符可能会被视为实际上出现在指向自己的页面上的短语。这是该专利中一个有趣的说法,其意义是’解释。如果有很多链接使用同一锚文本指向该页面,那么最终可能会在页面上添加许多特定类型的短语。

这些标记可能分为1,2、3、4或5个标记(单词和标点符号)或n-gram(其中“n” can be a specific number. 谷歌 has used n-grams in other ways as well, such as the n-gram查看器

A 谷歌 Research 博客 post, 我们所有的N-gram都属于您, tells us of a number of experiments at 谷歌 that used n-grams, involving work such as:

  • 统计机器翻译
  • 语音识别
  • 拼写校正
  • 实体检测
  • 信息提取
  • 其他

I’如果您想审阅专利申请,请链接至该专利申请,并讨论其不同方面。尽管它可能会讨论对Panda的更新以外的其他内容评分算法,但时间安排很有趣,’值得思考。

分享是关怀!

关于6条想法“新熊猫更新;新熊猫专利申请”

  1. 有趣的发现,比尔。该专利描述了一种流程,该流程将解释我在2011-2012年参与的一项逆向工程项目的结果,在该项目中,我们在熊猫降级的站点上测试了许多不同的因素。这归因于我们测试网站页面上短语的高度重复。

    这项发现与我们从Googlers和几个朋友交谈中所听到的观点一致:熊猫正在查看文本的重复。我不’认为我们没有足够的证据来明确地说这是熊猫算法,但是我’我会把钱花在这项专利上,直到出现更好的情况。

  2. 感谢您的有趣文章Bill。我的网站之一受到了熊猫的惩罚。
    我能够恢复去优化的过程:我只是降低了关键字的密度,然后去优化了H1标签。
    够了
    At the end, it seems we just need to write naturally, without trying to game 谷歌.

  3. 第一部分是我觉得最有趣的部分, “生成短语模型”.

    我会怀疑,除了重复的文本外,他们还希望提高发现内容场复制/粘贴作业的能力。大部分低质量的文章都是原始模板的副本,在其中单词会被更改,但总体而言,思路和句子结构是相同的。一旦从现有文章中建立短语数据库来进行比较,就应该更容易识别这些克隆的文章。

  4. 我想知道他们如何在电子商务网站上使用它?他们的gridview中充满了产品名称,这些产品名称将一遍又一遍地使用相同的关键字。您是否在测试中看到任何表明它们处理方式不同的内容?

评论被关闭。