分类学分类,以更好地理解页面上单词的含义

分享是关怀!

How does 谷歌 Use Taxonomic Classifications?

给定页面本身的上下文,在网页上找到的许多单词会更容易理解,如上周获得的Google专利所述。例如,用这个词“bank,”这可能意味着金融机构,河流的一侧或飞机的转弯。在页面设置中没有单词本身的上下文,它’很难确定该词的含义。

我通常在其中包含一个部分 现场审核 与网站的结构和组织有关的内容。本文着眼于如何通过一个页面到另一页面的链接将事物连接在一起,以及如何使用锚文本来描述这些部分以及这些部分中的子部分。

它探讨了嵌套在子类别中,有时甚至嵌套在更小的类别分组中的类别层次结构的用法,以及如何将它们链接在一起。

这可能意味着较大(且更一般)的类别受益于与它们的更多链接,而较小的类别之间也具有某些相互链接。这一直是为我建立网站以及帮助查找和理解内容的重要组成部分。

分类分类专利提供了将网站组织成层次结构的示例,以及这些示例如何帮助搜索引擎提供有关构成网站结构的分类法的线索。

分类分类专利中描述的一组地点是制造商’网站,例如Apple网站,以及如何’的结构旨在展示Apple生产的不同产品。专利中探讨的另一个站点是电子产品审查站点,该站点按产品类型然后按特定产品进行组织。另一个是汽车站点,在这里,汽车分为特定的品牌和型号。

这些示例用于说明当新站点包含的信息比以前访问的站点多时,或者当新信息添加到分类中(例如可能发布新的智能手机模型时),如何使用站点来更新分类模型。

那么,为什么要查看站点的结构以提出可能适合的模型分类法呢?

分类分类专利告诉我们,这样做可以使搜索引擎更有可能在网站显示广告的情况下为该网站的页面选择相关的广告。广告客户可以用这种方式在更有意义的页面上展示他们的广告。就像金融机构希望在广告上使用““bank” within the context of finance, but not river 银行s or 银行ing planes.

除广告外,页面的这种分类标准还使Google能够根据层次分类和/或分类标准的其他特征来标记单词和/或页面。

以自动方式标记分类法

It’无法说出Google已为页面分配分类法多久了,但是让他们更好地理解页面上的单词是有意义的,因为它们可以了解这些单词在网站页面上的使用方式以及它们在网站本身中的上下文。

尽管其中一些标签可以通过爬网来完成,但某些标签也可以通过使用也可以将标签应用于页面的读者来完成。像这样的方式使用人类分类器是一个瓶颈,可能会大大减慢或延迟该过程,因此,该专利的目的是使该分类学分类过程尽可能自动化。

一旦适当标记了足够多的文档集,结果集就可以称为“golden set,” or a “training set.”这种类型的培训网站使Google可以创建分类器模型,表示可用于标记其他单词的规则或标准,包括查看文档中标记的单词与其他单词的接近程度,以分配该单词在文档中的概率。特定上下文可能具有在该上下文中具有特定含义的可能性。

因此,此分类分类专利的重点是搜索引擎自动执行此过程的一种方法,这样它就不会’不必依靠人类的读者和分类者。该专利是:

根据网页更新分类法
由Philo Juang,Christopher Testa和Nicolaus Mote发明
Assigned to 谷歌
美国专利8,645,384
2014年2月4日授予
提交日期:2010年5月5日

抽象

根据示例实现,计算机实现的方法可以包括:由计算设备从网站提取结构化内容;通过将类别规则应用于结构化内容来确定最近分类法,该最近分类法包括多个分类和新分类,通过将新类别添加到存储的分类法中,并基于确定的最近分类法来更新存储的分类法。

分类法的更新可以部分地通过在网站或网页上查找结构化内容来完成,例如结构化格式(如表格)或其他格式的HTML。分类规则可能会应用于该结构化内容,以确定最近的分类法,包括多个类别。

可以以有针对性的方式进行抓取,该方式会定期抓取并重新访问特定页面以更新分类法。

那里’关于一个“Administrator”指导爬网操作以更新分类法,并且此方法可以在公共Internet以及私有和/或公司网络上使用。

分类提取器可以基于访问页面并从以下来源中寻找内容来创建类别规则:

  • 与网页区域内的超链接相关的项目
  • div中的对象
  • 菜单或下拉菜单中的项目
  • 表格的同一行或同一列中的项目
  • 列表或大纲的一部分中包含的项目
  • 网页中的选项可以是同一超类别中的类别

分类分类专利还告诉我们“在做出选择之后(例如,从菜单或下拉菜单中选择某项之后或单击超链接之后)可用的选项或类别是所选选项的子类别。”

该专利还描述了程序员或管理员可能还必须为私人或公司网络上的页面开发或选择分类规则的选项。

拿走

我最近写了一篇标题为 某些搜索会用主题替换关键字吗?,以及Google要执行类似操作的能力,需要搜索引擎更好地理解页面所涵盖的概念和在查询中找到的主题。该分类标准专利为Google提供了一种关于页面内容的想法,而我’不久将发布一些帖子,对它进行更深入的探讨。

上次更新时间为2019年6月8日。

分享是关怀!

3个想法“分类学分类,以更好地理解页面上单词的含义”

  1. 很棒的文章,在专利上也很不错!大多数SEO知道关键字在一天中的价值较低,但是’不能完全确定’替换它们。我认为Google已经提出了一个很好的解决方案;这不仅有助于他们识别内容,还应减少垃圾内容–至少一会儿。你认为我们’会很快在网站站长工具中看到一个新工具,该工具将允许网站站长为自己的页面添加标签吗?

  2. 谷歌越来越了解网站-如此之多,以至于它可以识别或推导该网站的层次结构来创建分类法,并使用该分类法来分析其他类似的网站。简而言之,它具有确定页面“关于”的方法。

  3. 来自进化生物学的背景,当我听到有关Google试图通过分类法组织网络的消息时,我会非常警惕!

    如果我从那种教育经验中学到了什么’s我们的大脑迫切需要的分类学分类根本无法准确反映我们周围世界的现实,而现实世界是连续存在的。我担心这不是一个仅涉及生物自然顺序分类的问题,而是涉及所有事物的问题。

    It’事先了解这些问题,看看Google会如何处理这将是很有趣的。

评论被关闭。