看看Google Midpage查询优化

分享是关怀!

Google推出中页查询优化

4月初,Googleguy在搜索引擎监视论坛上发布了帖子,他的帖子被拆分为一个标题为Google Confirms Mid-Page的主题“See Results For”本节不再进行测试;建议一个名字!

他在帖子中告诉我们:

实际上,这不再是考验。我们会在看到查询(例如[katrina]或类似内容)时认为这样做会从优化中受益(例如,您可能想搜索[飓风卡特里娜]),因此会执行此操作。

如果你没有’没有看到有问题的其他查询结果,它们是一些替代的建议搜索词的链接,出现在Google返回的前十个结果的中间。

这些替代建议已被称为用户界面(UI)实验,以及许多其他显示Google结果的方式。

我仔细研究了Google提交的一些专利申请,并提出了去年发布的一项专利,该专利似乎描述了如何决定这些替代查询词(或查询优化)。

在研究Google可能如何做之前,让’s look at why:

搜索查询中的歧义

搜索引擎尝试提供最有希望的结果来响应查询,但是基于所使用的查询,它们可以返回的内容有一些限制。

某些搜索查询可能太含糊,太笼统或太具体而无法提供良好的结果。

例子:

  • 同名–具有相同声音和可能相同拼写但含义不同的单词,例如单词“bear”可能意味着携带或可能指动物或没有衣服。
  • 不适当的环境– The word “jaguar”可以是动物,Macintosh操作系统或某种汽车。
  • 非常笼统的条款–提供过于广泛的搜索结果
  • 非常狭义的术语–提供过度限制和无响应的搜索结果。

该查询改进专利申请试图提供解决这些问题并满足搜索者意图的建议。

该解决方案已申请专利

提供搜索查询细化的系统和方法
发明人:Paul Haahr和Steven Baker
美国专利申请20050055341
2005年3月10日发布
归档:2003年9月22日

抽象

提出了一种用于提供搜索查询细化的系统和方法。存储的查询和存储的文档被关联为逻辑配对。权重被分配给逻辑配对。发出搜索查询,并生成一组搜索文档。至少一个搜索文档与至少一个存储的文档匹配。检索存储的查询以及与匹配至少一个存储的文档相关联的分配的权重。基于存储的查询和与匹配至少一个存储的文档相关联的分配的权重,形成至少一个簇。针对至少一个集群相对于至少一个其他集群对与匹配至少一个存储文档相关联的存储查询进行评分。建议至少一个这样的计分搜索查询作为一组查询改进。

这些查询优化如何工作的示例

搜索者可能会尝试通过输入单词在Google上查找信息“jaguar”进入搜索框,然后按Enter。

返回的文档可能可以放入许多语义相关的组中:

  • Cars from the 美洲虎 Corporation,
  • 美洲虎 Corporation Websites in the US and UK,
  • A 美洲虎 automobile owners association,
  • The Macintosh operating system version code-named 美洲虎,
  • 美洲虎 animals, and
  • 其他杂项主题太小而无法归类为具有凝聚力的文档集群。

Google通过查找结果并选择前100个文档进行聚类来开始处理请求(可以使用不同的数字–请记住,这只是一个例子。)

在该聚类阶段,为按相关性得分排名的前100个文档中的每一个计算术语向量。

这些文档每个都与关联数据库中列出的存储文档匹配,并且通过查看与针对那些匹配的存储文档事先计算的查询的关联来找到替代查询词。

还为这些替代查询词创建了词向量,并从两组词向量中创建了聚类,以创建类似于上述分组的分组。

为每个聚类计算聚类质心,并根据与聚类质心的距离和与每个存储文档相关联的聚类中出现的存储文档的百分比对与聚类中搜索文档关联的所有搜索查询进行评分。

因此,假设为搜索查询计算了一个聚类“Jaguar” for the semantic grouping with documents about 美洲虎 brand automobiles.

集群质心可能包含占主导地位的术语,包括单词,例如:

  • 美洲虎,
  • 汽车,
  • 汽车,
  • 汽车,
  • 美国,
  • 英国和
  • 其他。

建议的查询优化中,最匹配的查询名称可能是“jaguar 汽车,”它在整个群集中具有良好的覆盖范围,并且还包含在群集质心中权重最高的两个术语。

A cluster may also be calculated for the grouping of documents about the Macintosh code-named 美洲虎 operating system.

该群集的质心可能具有占主导地位的术语,其中包括单词,例如:

  • 美洲虎,
  • X,
  • 苹果电脑,
  • 操作系统和
  • 其他。

对此的最佳建议的查询优化可能是“mac os x 美洲虎,”其中包含所有热门搜索查询词,并显示在群集中的许多文档中。

可能会创建其他集群和查询名称,以提供其他建议的查询优化,包括“jaguar racing”有关捷豹汽车俱乐部的文件,以及“jaguar cat”有关美洲虎动物的文件。

通过分配给与匹配出现在每个聚类中的存储文档相匹配的搜索文档的相关性得分加上多个存储文档中聚类的大小,对这些查询进行排序。

因此,如果某个群集较大或存储的文档具有较高的相关性评分,则该群集的排名将高于另一个群集。

在此示例中,查询细化的最终排名包括

  • 捷豹汽车
  • Mac OS X 美洲虎,
  • 美洲虎赛车, and
  • 美洲虎猫.

替代查询还可以包括出现在一组优化条件中但未出现在原始搜索查询中的否定形式的术语,例如:

  • “美洲虎-car -mac-os-x -racing -cat。”

同样,从过去的用户查询中选择的一组预定搜索查询也可以用于预先计算可能的细化集。

响应于基于预定查询的未来用户搜索请求,将发布这些预定查询,并将搜索结果保存在数据库中以进行查找。

改进的查询将与原始搜索结果一起提供给搜索者。

有关流程的更多详细信息

改进查询的专利申请通过深入了解过程中的每个步骤,相当深入地研究了此过程的工作方式。

首先查看预计算阶段,该阶段发生在甚至没有任何查询输入搜索引擎之前。一种“预计算引擎”描述至少有四个部分:

  • 关联器,用于在存储的查询和存储的文档之间创建关联权衡的关系。搜索查询的次数也可能在权重中起作用
  • 一个选择器,用于根据搜索确定应检索哪些存储的文档及其存储的查询。
  • 一个Regenerator,它查看查询日志,并可以根据以前的搜索选择存储的文档。
  • 一个Inverter,它查看缓存的数据,并可以基于该缓存的数据选择文档和关联的查询。

查询优化系统还包括四个部分:

  • 匹配器将搜索引擎响应搜索查询而生成的一个或多个存储文档与实际搜索文档进行匹配。相关性分数也作为搜索查询发布的一部分而创建。匹配器使用与匹配的存储文档相对应的关联来标识存储的查询和分配的权重。
  • 聚类器基于从匹配存储的查询中出现的术语和相应的权重形成的术语向量形成一个或多个群集。术语向量是投影到多维空间中的归一化向量,每个维度对应于一个术语(单个单词或单词组合)。基于分配给与匹配的存储文档相对应的搜索文档的相关性得分以及每个群集中出现的存储文档的数量,对这些聚类进行排名,并且排名最高的聚类被视为潜在的细化聚类。
  • 记分器计算中心加权的词向量(质心),每个向量代表每个聚类的词向量的加权中心。质心是根据每个潜在的优化簇计算的。可以基于与搜索查询相关联的已存储文档的数量以及与质心的距离,来分配给每个潜在细化群集中的每个唯一搜索查询的分数。
  • 演示者,其将得分最高的搜索查询标识为对用户的一项或多项查询改进。搜索查询细化公式的详细信息(例如术语向量,聚类,潜在细化聚类,质心和得分)都保留在查询细化引擎中,因此用户只会知道实际建议的查询细化。

该查询改进专利申请进一步涉及预计算过程,通过使用搜索结果以及日志文件数据和缓存数据来查找候选替代查询的更多细节,以及这些候选如何导致呈现给用户的实际替代查询。

结论

我发现有关此方法的最有趣的事情是如何通过日志文件和缓存的信息将用户数据合并到结果中。

该文档中可能存在一些提示,提示人们在网站上创建内容,以及如何最好地显示在这些替代结果中。仔细研究您认为人们会搜索的单词以及Google中出现的内容’这些搜索词组的搜索结果可能会告诉您有关这种搜索优化方法将如何处理您的页面的信息。

作为免责声明,此查询改进专利申请中描述的过程显示了一种实现查询改进的方法。那里’不能保证这实际上是所使用的方法,但是 ’如果您对Google可能如何提出这些替代结果感兴趣,则值得一看。

我在这篇文章中撰写的专利已于2017年由Google续用专利进行了更新。 Google搜索查询优化专利已更新。

分享是关怀!