Google基本专利申请:搜索,标记和排名用户生成的数据

分享是关怀!

当Google Base首次问世时,它没有’没有最友好的界面,其用途和目的’很清楚。一些新的专利申请提供了有关Google Base背后思想的更多信息。

名称Google Base只是一个短语“data base.”在最简单的层次上,’一种使人们以结构化格式将信息(用户生成的内容)上载到Web的方法,其中带有与该信息相关联的属性和值。是否要上传有关职位,待售产品或图书馆藏书的信息? Google Base可以帮助您做到这一点。

Google Base的用途可以纯粹是信息性的,例如有关期刊的信息的集合:标题,作者,出版物,文章。 Google Base还可以包含商业信息,例如待售产品和有关这些产品的信息。

由于信息是以结构化格式输入的,因此应易于搜索许多Google Base条目中包含的项目,并且当人们输入该信息时,他们还可以在标签上附加标签。的 Google Base帮助中心 很好地解释了什么是Google Base以及如何使用它。

Google Base的历史和目的

从2005年问世以来,公众对Google Base的看法一直很有趣。它是eBay或Craig的竞争对手’清单?它是无助的缺陷吗?替代Froogle?一种接受工作网站,约会网站和房地产网页的方法?

通过阅读专利申请,似乎背后的主要思想是允许人们创建可用于桌面,网络或互联网的可搜索数据库。如果有人想建立工作数据库或产品数据库,那么Google Base会允许他们。

如果允许人们以结构化的方式在Web上共享其信息,而Google可以让人们通过标签或通过垂直搜索(例如产品搜索)让人们进行搜索,则Google将使用该信息。

这里’的时间表,显示了过去几年中与Google Base有关的媒体提出的一些问题。它显示了人们对Google Base的一些困惑:

  • 2005/10/25–Google Base:eBay和Craigslist的新对手?
  • 2005/12/6–在Google Base上寻求帮助
  • 2007/1/12– Google Base –2007年第一季度的比较购物故事

官方 Google Base博客 也是了解Google Base历史的好地方。

专利申请

Google Base避风港的专利申请’该专利已在美国专利商标局发布,但上周在世界知识产权组织(WIPO)上发布。

如果您仔细阅读了Google Base帮助页面,则很有可能’将会很好地了解专利申请中涵盖的内容。那里还有一些其他信息。

我最质疑的两个领域是物品的排名方式以及“query refinement”确定在Web搜索中显示的术语。专利申请为第一个提供了一些不同的答案–项目的排名,并讨论概念“core” attributes which may correspond with the 查询细化s.

在Google Base中对项目进行排名

专利文件指出,有2个主要信号可用来评分项目:

  • 查询依存等级–主要是信息检索(IR)得分(与查询的相关性)
  • 查询独立等级–页面等级和项目等级的混合

PageRank将是提供者’的网站页面排名。一些物品’与网页相关联(Google Base的要点之一是即使您不’没有与之关联的网站)。

因此,如果仅将项目托管在Google Base上的一组数据中,并且/或者这些项目未链接或连接到其他项目,则PageRank可能不存在。

除了PageRank之外,专利文件还提到了“Item rank,”这可以由许多因素决定。有两种主要方法可以对这些信号进行分类:

  • 提供商特定的信号(例如等级)
  • 提供特定信号(例如,描述长度,属性数量,标签,图片等)

项目等级可以通过以下信号定义

  • 描述长度
  • 标题长度
  • 标签数量
  • 属性数量
  • 图片
  • 报价被报告为垃圾邮件的次数
  • 供应商评级
  • 报价的新近度

除了根据这些排名因素对项目进行排序以外,“每个提供者的最大项目数”以防止特定提供者挤占页面(就像在Web搜索期间仅显示同一站点的几个Web结果一样)。

当搜索者选择属性和/或标签来缩小搜索范围时,系统将搜索标签,标题,描述和属性值。属性名称也应该可以作为完整名称进行搜索。这里’在涉及这些搜索的专利申请中还告诉我们一些其他信息:

  • 与遥远的单词相比,短语的权重很高。
  • 标签比标题的权重更高,标题比说明的权重更大。
  • 属性值的权重与标签相同。

专利的屏幕截图显示了Google Base中列出的项目:

Google基本屏幕截图

Google Base中Google Web搜索中的查询优化

In a Web search, you might see a list of 查询细化s for a particular search term. When I conducted a search for the word [nike] I received a list of ten results, and then the following 查询细化s, taken from labels and attributes from Google Base:

Google基本查询优化

那么,这些如何决定?它’s hard to tell. In the image above, we see a list of labels and attributes across the top of a search in Google Base. The patent applications describe how those are determined. Is the process the same for the 查询细化s that are shown in Google Web Searches? It’很难说。他们可能是。

在Google Base中,当确定查询结果时,可能会显示查询结果的某些属性名称和标签。

显示在查询结果顶部的属性是:

  • 查询结果中最常见的
  • 搜索者最多点击或完善的内容。

这里’更详细的说明:

最终用户执行搜索时,搜索引擎将确定q个最相关的结果,并为q个最相关的结果确定n个最流行的属性。对于前n个属性名,系统确定前m个属性/标签值。然后,它通过计算一组相关结果中匹配报价的数量来计算直方图或报价计数。值q,n和m都是可配置的。不应在限制意义上采用的示例值为:q- 1,000–100,000 K(也可以将q设置为与特定查询词匹配的ALL结果。)N在100s范围内,M在20-100范围内。

结论

Google Base允许Google以易于索引(和搜索)的方式让用户为搜索引擎创建内容,这是因为它是针对不同项目的属性/值对构成的,而且输入者甚至可以对其进行进一步标记信息。

我们看到Google试图从其从电信,目录和Web页面接收的数据中提取信息以进行本地搜索,以创建一个结构化的数据库,该数据库可用于向搜索者提供有关营业地点的信息。它为N’对于Google而言,从结构化,半结构化和非结构化数据的混合中构建数据库总是很容易的。

Google可以尝试这样做以填充产品数据库(或其他数据库),但是如果他们可以使人们以结构化的方式上载该信息,则对他们建立该信息的索引可能会变得容易得多。

分享是关怀!

5个想法“Google基本专利申请:搜索,标记和排名用户生成的数据”

  1. 回应:»博客存档»Google Base专利申请的见解

评论被关闭。