谷歌 的Google网页细分获得了专利

分享是关怀!

谷歌 如何理解页面细分

为Web开发的HTML5标准引入了一组新的HTML元素。这些包括节,页眉,页脚,文章,旁边,页眉和导航等元素。马克·皮格里姆’的在线书籍《深入了解HTML5》使我们了解了HTML5的最新版本,并向我们展示了这些 新语义元素 可能会随着我们创建网页的方式发生变化,从而使诸如搜索引擎之类的自动程序更容易理解页面不同部分的含义。

有趣的是,搜索引擎多年来一直在努力地做到这一点,并且今天授予Google的一项新专利描述了它如何能够理解网页的不同部分,并利用这种理解来帮助对网页进行排名。搜索结果,标题图像,为搜索结果页面构建摘要,并在链接出现在网页的不同语义部分时对链接进行不同的加权。

Microsoft已发布了几项专利和白皮书,说明了它们如何在将页面分成较小的块时执行某些活动。我最近的博客文章描述了Microsoft所做的工作,涉及的是专利申请,这使我们对他们如何确定专利申请有一些见解。 网页中不同块的功能. 那 post has some links in it to other posts here involving papers and patent filings from Yahoo, Microsoft, and 谷歌 .

但是我们’从来没有见过Google全面描述过如何将页面分为不同目的的不同部分。

今天获得的Google专利确实为我们提供了有关搜索引擎如何解释部分页面以及如何以多种方式使用该信息的更多信息:

确定文档在语义上不同的区域
Yonatan Zunger发明
分配给Google Inc.
美国专利7,913,163
2011年3月22日授予
申请日期:2004年9月22日

抽象

根据结构化文档中定义的语法元素,将结构化文档转换为初始分层数据结构。初始分层数据结构包括多个节点,并且每个节点对应于一个语法元素。然后,该方法根据结构化文档的伪渲染用具有属性集的节点注释节点,该属性集包括结构化文档中与该节点相关联的语义元素的几何参数。

最后,该方法根据其各自的属性和一组预定义规则将初始分层数据结构中的节点合并为合并节点树,以使每个合并节点与伪呈现文档的语义上不同的区域相关联。

预定义规则包括用于合并与在伪呈现文档中具有附近位置和/或兼容属性的语义元素相关联的节点的规则。

谷歌 早期专利中的页面细分

早在2006年, 谷歌 专利申请 发表了一篇文章,其中描述了Google如何处理充满餐厅评论的页面,然后将页面分开,以便它可以将每个评论与所评论的餐厅相关联。在该专利的底部附近插入了一段文字,告诉我们,Google可以使用该细分过程进行处理,而不仅仅是评论:

[0047]尽管参考图1至图4描述的分割处理可以尽管图4-7被描述为基于与企业列表相对应的地理信号来分割文档,但是一般的分层分割技术可以更普遍地应用于文档中的任何类型的信号。

例如,代替使用与企业列表相对应的地理信号,可以使用文档中的图像(图像信号)。然后可以应用分割过程以帮助确定什么文本与什么图像有关。

备选地,可以在不基于信号对文档进行分区的情况下,对文档执行参照动作403和404描述的分割处理。然后,所标识的分层段可以用于指导识别器,该分类器标识与文档或多或少相关的文档部分(例如,导航样板通常不如页面的中央内容相关)。

合理的Surfer专利中的页面分割

谷歌 ’s 合理的冲浪者 该专利描述了Google如何根据与这些链接相关联的多个功能,将不同数量的PageRank传递给不同的链接。其中一些功能涉及到这些链接在页面上的位置。但是,该专利(如评论细分专利)确实没有’我们不会详细介绍Google如何将页面分成不同的部分。

这项新专利确实如此。

它查看页面的HTML,还查看页面在模拟浏览器中的显示方式,以了解页面的不同部分,它们的用途以及它们在页面上的位置。

通过了解页面的这些不同部分而驱动的某些页面细分过程的示例可能包括:

链接分析 – links found in “可以为不同的语义上不同的区域分配不同的权重。”因此,指向另一个页面的链接’与在页面更重要的部分中找到的链接相比,在页面页脚中找到的s的权重(或PageRank)可能更少。

文字分析 在页面的某些部分找到的文本可能会比其他部分具有更大的权重。因此,页脚中具有特定关键字词组的页面在匹配该词条的查询中的排名可能不会比关键字词组位于页面的更重要部分(如主要内容区域)中的排名高。一个查询词出现在页面重要部分中的一个页面的排名也可能会高于另一个查询词出现在页面中不那么重要的部分中的页面。

图片字幕 在图像附近找到的文本通常比离图像更远的文本与图像更相关。此分割过程可以帮助识别哪些文本更接近图像,并且可以用于帮助为图像添加标题并帮助其在图像搜索中排名。

片段结构 当搜索引擎在特定查询的搜索结果中返回页面时,它会生成一段文本来描述在该页面上找到的内容。有时,当查询词出现在页面的元描述中时,搜索引擎会显示元描述。但是搜索引擎还会使用在页面本身上找到的文本,并且它可能会根据某个部分中的文本创建一个摘要’与查询字词最相关。

页面细分结论

该专利提供了大量有关如何解释页面不同部分的详细信息。新的HTML5很有可能使Google之类的搜索引擎将来更容易做到这一点。

We’Microsoft和Yahoo都曾就如何将页面分解成许多部分进行了详细介绍,但对于Google进行的页面细分却知之甚少。现在开始。

上次更新时间:2019年6月9日

分享是关怀!

关于46的想法“Google的Google网页细分获得了专利”

  1. 一如既往充满洞察力的比尔。

    谷歌 试图在最终的HTML5版本中保持领先地位,这将大大简化索引和分段的发展,但是我怀疑HTML5的采用会相当缓慢。直到今天,我仍在审核仍在令人沮丧地使用基于表的设计的站点。

  2. 我怀疑速度会很慢。直到今天,我仍在审核仍在令人沮丧地使用基于表的设计的站点。

  3. 这项专利非常有趣,其中SEO和Google是最大的专利,我可以看到SEO需要不断发展以跟上潮流,我想知道是否某些较大的网站会因为SEO的利益而最终转向HTML5?

  4. 嗨比尔

    网站要进行新设计升级的原因很多,但我’我不确定这样做仅仅是为了使搜索引擎更容易理解站点的语义结构,这是我要指出的头号问题之一。 谷歌 关于分段的专利最初于2004年提交,他们关于如何解释页面结构的许多示例都包括基于表格的格式。

    我确实认为,如果设计页面的目的是使搜索引擎可以理解页面上的主要内容,并且针对与网站所有者的目标和访问者的意图均相匹配的关键字,可以对主要内容进行优化。到站点,那么有好处。我们不’不一定需要将网站重新设计为HTML5才能实现,但是HTML5看起来确实可以使其更容易实现。

    如果网站迁移到HTML5,则应这样做,因为这将有助于使其页面加载和呈现更快,使它们更易于管理,维护和更新,并为该网站提供一些有益的功能,’之前没有拥有,依此类推。 SEO的担忧应该成为该分析的一部分,但我不会’建议您仅出于SEO目的将网站更新为HTML5。还有许多其他潜在的好处。

  5. 嗨,院长,

    谢谢。该专利已提早提交,我没有’甚至还没有想到HTML5是当时的构想。当时正在开发较新版本的XHTML,将来更可能支持它们。

    HTML的优点在于它非常灵活,可以用不同的方式完成许多相同的事情,而HTML的问题在于您可以用不同的方式完成许多相同的事情。可能总会有人使用旧版HTML设计网站,并继续使用基于表格的布局。那’这是搜索引擎面临的挑战之一–索引内容,并尝试查找最佳和最有用的信息,而不管站点背后的代码是使用最新技术还是使用较旧的技术。

    我认为了解Google或Microsoft可能会使用的细分过程之类的内容有助于学习有关要成为作家的语法,拼写和写作规则。对这些事情的了解为您提供了更多的工具和想法。你不’不需要使用HTML5来使搜索引擎更容易理解页面的哪些部分是主要内容区域,但是知道如果可以使搜索引擎更轻松地选择该部分并专注于该内容,使您更容易出现在搜索结果中’ve intended to.

  6. 你好金,

    我同意–HTML5的采用速度可能会很慢,我预计会有很多网站赢得 ’请尽快进行更改。也许一旦有确实令人信服的理由这样做,就会使我们进入人们开始进行改变的地步。 HTML5中提出了一些非常有趣的东西,例如更轻松地嵌入视频的功能。猜猜我们拭目以待。

  7. 对于Google来说,这样做很有意义,因为HTML5赢得了’直到很长一段时间都无处不在,反正有可能被游戏化。我认为Google可能已经有一段时间了,而在相关性较低的部分(例如,页脚/侧边栏/导航)中,对链接和文本的重视程度有所降低,’现在是改进该流程并使之更加可靠,语义和精确的案例。
    再次很有趣的东西。

  8. 嗨,比尔,
    我认为这是完全合理的。 谷歌 试图摆脱不良站点的索引,并返回给定条件的最佳页面。目前使用html5和突出显示功能是玩Google的第一步,这太容易了,希望它能摆脱我们所有人不得不忍受的废话。好的算法’s总是可以玩的,但这会有所帮助,因为它将在质量上更多,而不仅仅是链接构建。

    Html5 is an easy upgrade for anyone with a small knowledge of web design. In fact 我认为它’是一种更简单的语言,因为它更具逻辑性。

    很棒的文章了。是时候让我用html5做一些测试了

  9. 正如Dean所说,谢谢Bill,他一如既往地富有见识。

    我倾向于在此处接受Twosteps的评估,即从SEO的角度来看,谷歌很可能一直在基于结构,语义位置应用链接权重。

    也许我’我读了太多亚伦·沃尔’seobook.com/blog(我很喜欢那个博客),因为我发现自己提出的第一个问题是:

    谷歌 如何使用HTML 5语义更好地抓取外部网站,以吸引更多流量访问其网站资源,从而使Adsense收入的可能性更高?

  10. 好东西(再次!)比尔。一个问题可能是,这是否会取代SEO通过CSS重新排列内容以使正文内容位于文档上方的任何好处。如果他们能够更好地将正文内容分类为一个项目,尤其是使用HTML5,那么它在文档中出现的位置就不再重要了?

  11. 嗨,比尔,
    我完全同意,重点应该放在页面内容的质量上以及在语义书面副本中使用突出性。

    我期待测试链接位置并为此撰写案例研究。这将是一个非常有趣的测试。

    I’完成测试后,将在此处发表更多评论。

  12. 嗨,两步走,

    我同意您的看法,即Google至少有几年时间一直在使用这样的系统来减少对不相关部分的重视。不仅是我在帖子中提到的四件事–链接,与查询字词的相关性,为图片加上字幕以及确定摘要,但也可能与其他内容有关。例如,决定要在带有adsense的网页上展示什么广告。

  13. 克里斯,你好

    也许我’在谈到Google时,我不像亚伦那样愤世嫉俗’的动机,但是Google如今有很多经济学家,而我’确保他们认识到,如果他们在将搜索者发送到自己的网站时表现得过于自私,那么最终结果就是人们可以使用其他搜索引擎,或者当这些服务出现在搜索结果中时更频繁地忽略Google服务和网站结果。

    当我开始发表有关HTML5的一些想法时,Google却没有’不需要HTML5进行这种细分。当他们对网页进行细分时,它可能会对Google有所帮助,但是我认为HTML5语义元素的真正好处是对网站设计者来说,以便他们更有可能像Google这样的搜索引擎更好地进行细分。

  14. 李嗨

    HTML5的好处是,它为我们提供了更多可用于构建更好页面的工具,其中一些工具使搜索引擎抓取工具和索引器之类的程序更容易理解我们网站的内容。

    但是我 do want to stress that irrelevant content is irrelevant content regardless of whether it’使用HTML5或HTML 4在网页上显示。

    因此,如果有人尝试转换为HTML5并认为这将有助于他们在Google上排名更高,那么他们也应该努力改善其页面的优美程度,质量和可用性。

  15. 嗨,伊恩,

    多年来,人们一直在尝试使用内容位于页面代码中以及搜索引擎呈现的页面上的游戏。在使用绝对定位的CSS技巧之前,人们使用的是类似的表格技巧。某一时刻,搜索引擎正在寻找最接近页面顶部出现的单词,以确定这些单词或短语可能有多重要。它’最好查看出现在页面主要内容区域中的单词,而那些CSS和表格技巧实际上并没有’t help with that.

  16. 对SEO的影响应该与我们所做的任何其他更改一样’多年的经验。调整是SEO世界的一部分,所以我不’认为这对于SEO来说应该不算什么大问题。保持最新状态是我们芝加哥SEO公司的主要关注点。为此,我们可以根据变化进行战略调整,并保持客户的领先地位’s sites.

  17. 这里’来自JohnMu @ 谷歌 的报价,

    “通常,我们的搜寻器习惯于无法解析所有HTML标记–无论是来自损坏的HTML,嵌入式XML内容还是来自新的HTML5标签。我们的总体策略是等待观察实践中如何在Web上标记内容并适应该标记。如果我们发现越来越多的内容使用HTML5标记,则该标记可以为我们提供更多信息,而实际上’如果网站管理员错误地使用它会导致问题(一开始总是很麻烦),然后随着时间的推移,’我会尝试将其应用到我们的算法中。考虑到这一点,我绝对不会’不想妨碍您使用HTML5实现网站的某些部分,但我也不会’暂时不要因为HTML5标记而对您的内容有特殊的对待。 HTML5仍在开发中,因此它’很高兴看到尖端站点正在利用新的可能性:)”

    I’我很高兴他们正在研究细分市场。我们越能向Google证明自己在布局中具有绝对优先权,就越容易让他们识别出我们认为值得在自己的网站上进行最佳排名的内容。这让我想起了Garrett French’关于可链接资产的书。我认为任何SEO’er who isn’适应这种思维方式将留在路边。

  18. 对小型网站企业会有什么后果?我们需要尽快计划吗?

  19. 那’我对Google和搜索引擎的热爱。它们如何发展以及如何帮助Internet变得更美好。关联性和点击率的提高是每个网站管理员或博客的责任’s priority list.

    我认为,此细分升级/更新/游戏计划将使seo垃圾邮件发送者更加难以对其网站进行排名,但与此同时,使列表和结果更加相关。

    谷歌 和Amazon应该合作,因为客户/访客都沉迷于ðŸ™,

  20. 毕竟语言学研究可能还算不错。一旦我们开始理解基本规则,我们就不需要知道要开始解析它的语言,因此,我很高兴地看到语义研究仍然参与了搜索的发展。但是,我想知道搜索引擎是否可能缺少可能很重要的元素。如果我们开始映射页眉,页脚和侧栏中的元素,我们可能会看到一些注意事项。用户可能会非常关注这些区域中的内容,因为它们可能与他们正在寻找的东西有关,或者内容可能会肯定他们对网站的想法,从而导致他们继续阅读内容,这可能是折叠以下。例如,一个大的页眉会在折叠之前阻塞可用空间,但您确实会看到标题,也可能是内容的摘录。如果侧边栏首先适合广告,则用户可能会开始形成对该站点的感知(当然取决于广告)。如果侧边栏以解释站点或作者简历的少量内容开头,则用户会获得不同的意见。也许更值得信赖。如果侧边栏专用于UGC类型的项目,该怎么办。如此强调,用户可以创建网站的权限,并且边栏(或者可能在页脚中)的内容会发生变化,’语义分析表明这对理解站点很重要吗?基本上,搜索引擎是在正确的轨道上,但是在复制用户对有价值的内容的理解方面,搜索引擎可能还要走得更远。

  21. 这很有趣。它’当他们不断涌入垃圾邮件内容时,他们自然会保护自己的在线完整性。它’s good to know they’重新保持警惕。

  22. 我认为它 is natural but of course interesting that it happens. 我同意with you, Bill, that it is important to understand that crap content is crap content whatever format you read it in.

  23. 老实说,我给Google留下的印象是,当Google滚动浏览网站并根据该网站的相关性对其进行评估时,我会仔细检查所有内容,但我还是改正了。再次感谢。这是否意味着人们将来需要进一步研究他们如何设计网站,并对此有所了解。

  24. 嗨,瑞安,

    好点。 SEO不断变化和发展,我’我们怀疑Google至少在5年内使用这种类型的网页细分。该专利很好地验证了这一假设。即使Google没有’过去,您可能会在页面上执行的某些操作可能会导致页面质量更高。

  25. 李嗨

    您的实验听起来很有趣。 谷歌 对网页和链接进行排名的方式涉及许多不同的因素,因此有些实验可能很难执行– but that doesn’不一定意味着他们不是’值得尝试。期待听到您的结果。

  26. 嗨,布伦特,

    感谢John的报价,以及您对此主题的想法。

    我完全同意,我们可以使搜索引擎更轻松地解析页面上的代码并找到我们希望他们找到的东西,我们的处境会更好,并且我们对自己所拥有的信息的控制力也就越大尝试发送我们的内容。一世’对于在主要内容中找到的内容而不是在页脚中显示的内容,其Pagerank更好。我认为在大多数情况下,这对于页面访问者来说是一种更好的体验,并且增加了他们访问其他我们希望他们看到的页面的机会。

  27. 罗伯特你好,

    有时,当授予专利时,搜索引擎可能已经有一段时间关注并使用其中描述的过程了。有时候他们’甚至转移到了其他(他们希望)可能会更好的地方。

    I’在Google的一个博客中,也有可能在某天(即在专利已作为专利申请发布或获得授权后不久)宣布并实施。例如,谷歌’的有关登录的个性化搜索和网络历史记录的专利很好地描述了所涉及的用户界面元素,并在发布这些专利之前约6个月发布。

    但是我’我们还看到专利申请或授予的地方’几乎无法判断搜索引擎是否可能使用过它,或者看起来还有很多其他事情可能需要摆在他们面前。

  28. 嗨,卢克,

    我认为该专利中描述的细分过程可能会影响各种规模的企业和站点。

    您应该问自己的几件事是,页面的HTML是否使搜索引擎更容易或更难理解什么代码与页面的哪些部分一起使用。另一个是你是否’在将重要内容(关键字,相关术语等)放入这些页面的主要内容区域方面,做得很好。

  29. 嗨Codrut,

    我认为在这种情况下’Google多年来一直在做这样的事情很有可能。因此,我’我不确定我们会从中看到巨大的影响。当然,正如布伦特(Brent)在他的帖子中提到的那样,很可能Google在分割某些网站的页面方面比在其他网站上做得更好,并且诸如HTML5中语义元素之类的标准的发展应该使他们更容易在更多网站上进行操作。

    谷歌和亚马逊看起来都像他们一样“user experience”在他们做的许多事情中处于最前沿。

  30. 嗨弗兰克,

    我几天前曾想过,如果有人在语言学方面具有深厚的背景或在计算机科学方面具有深厚的背景,那么对于在搜索引擎上工作的人来说是否会更好,我得出的结论是,最好有一个具有两种类型的背景共同协作。

    此细分过程不会 ’不一定要忽略标题,脚注和侧边栏中的内容,就好像它们与主要内容区域中显示的内容无关,并且我完全同意您的看法,如果确实如此,它们将是一个错误。

    我认为,当您着手从转换和可用性的角度分析页面可能产生的影响时,您也需要查看页面上房地产的每个领域。

  31. 嗨,迈克尔,

    确实是的。它’可以从干净的代码,快速加载的页面,良好的用户体验等方面正确获取页面上的所有技术细节,并且仍然可以创建内容,这些内容可能不是那么有趣,引人入胜,说服力或帮助。 ðŸ™,

  32. 嗨,克雷格,

    我认为它’始终有助于设计人员仔细注意其设计页面的方式,并考虑在侧边栏,标题,页脚和主要内容区域中找到的内容的作用和用途。通常,这些页眉,页脚和侧栏部分在网站的多个页面上包含相同或非常相似的内容,而不是提供独特而有趣的内容。搜索引擎应该关注页面上重要和独特的内容,因此无论搜索引擎是否会更加注意页面上的主要内容,通常都应该在页面的主要内容区域中找到重要内容的想法是正确的。找到那里。

  33. 嗨比尔 . 我同意upgrading to HTML5 purely for SEO benefit is probably folly but certainly for new site development anything that makes it easier for the engines to understand your content and improves 用户体验 makes it a must do.

  34. 嗨,比尔,
    有趣的文章! HTML5似乎为Google提供了更多选项来识别页面的特定方面以及链接等特定项目的价值。但是阿伦’页脚中的链接,侧边栏已经减轻了重量?是给Google和其他SE的新标准吗’细分的更多选择?马克·马克

  35. 嗨史蒂夫,

    在HTML5中进行开发似乎还有许多其他好处,而不仅仅是SEO。一世’我之所以摇摆不定是因为该标准仍需要一些工作,但是我’我试图关注随之发展的事物。

  36. 嗨,马克,

    It’可能会减少页脚和侧栏中的链接的权重,因此该专利是在有人想到HTML5之前提出的。我在介绍这篇文章时对HTML5进行了一些思考,因为它将为设计人员提供一种使页面的哪些部分更清楚的方法。新标准可以使搜索引擎更轻松地分割页面。我觉得’有助于开发人员,因为他们可以将更多精力放在使页面主要内容区域中的内容更加集中。

  37. pingback: 搜索引擎专利和熊猫 | WebProNews
  38. Pingback:内容链接比页脚链接更有价值吗? |阿拉莫西

评论被关闭。