那里’s 一些证据 that the 熊猫 updates to 谷歌 ’的排序算法可以基于决策树方法进行分类和创建 质量得分 用于网页和网站。对于Google是否会使用决策树方法对其他信息进行分类感到好奇,我深入研究了一些Google’我过去可能不会在这里介绍的其他专利申请。
我发现一个关于查询如何分类以及可能在不同的Google数据中心或数据分区中存储和强调的不同数据的有趣含义。
当我们想到搜索引擎的工作方式时,我们通常会专注于它们呈现给我们的结果,而不是它们用来传递这些结果的方法。除了快速向我们显示相关结果之外,搜索引擎还关注诸如如何使用其资源向我们提供结果之类的问题。
如果你’ve looked at 谷歌 ’s 页面速度 或Yahoo!’s 慢速,对于经常吸引全球受众的大型网站,他们经常会提出的建议之一是使用 内容传递网络 或内容分发网络,这将使这些站点能够在离用户更近的服务器上分发诸如图像或下载或流媒体之类的内容。
不同数据中心的不同结果
如果您从一个位置(可能是家乡)在Google中进行搜索,然后在同一天晚些时候从另一个位置(可能是工作地点)进行了相同的搜索,则可能会注意到某些结果排名已发生变化,第一次搜索中列出的页面可能在第二次搜索中不可见,并且已添加了一些新结果。如果您随后(在一天的工作之后)返回第一个位置,并执行相同的搜索,则可能会再次从该第一次搜索中看到相同的结果。
While 谷歌 ’s 本地ization (video) and 个性化 函数可能在您看到的不同结果中起作用,要考虑的另一件事是,您可能正在查看来自不同数据中心的结果。
搜索引擎优化(SEO)和网站管理员论坛上的人们已经注意到,如果从不同的数据中心提供服务,您可能会看到不同的结果。您可能会从其他数据中心收到结果,因为您’更改了位置,或者因为一个数据中心正忙,并且您的查询已路由到另一数据中心。的“reasons”因为差异经常被引用为:一个数据中心正在测试不同的算法,或者已经以某种方式进行了更新,而另一个则没有’t。我所没有的另一种可能性’提到的是,不同的数据中心可能会基于对离每个数据中心较近的人们进行更好的搜索来优化其搜索结果。该专利申请描述了可能如何完成。
谷歌 在全球范围内拥有数个全资拥有和租用的数据中心,尽管它们在某些情况下,您可能会从距离您更远的数据中心接收结果,但它们会尝试为来自搜索者附近的数据中心的搜索提供服务。最近的数据中心可能繁忙时。
对不同数据中心的查询进行分类
谷歌 去年发布的一项专利申请描述了搜索引擎如何对查询进行分类,以便它可以将与这些查询相对应的数据存储在可能最接近请求信息的搜索者的位置。
的patent filing tells us that this system may use a hierarchical, tree-shaped architecture to accept queries and return results to searchers 在 a way that both “优化有用性/准确性” of the results while also managing resources and costs associated with running the system. 的results that are delivered to a searcher may come from more than one data source, but the idea behind the system is to make searches both more efficient and effective.
在此系统下,查询可能会发送到“distributor node”这将决定许多“producer nodes”将该查询发送到。生产者节点与数据源的索引相关联,数据源的索引将搜索文档中的单词或短语或关于那些文档的元数据(包括音频,视频和图像)。
由于生产者节点与分发节点之间的物理距离较远,或者由于查询节点的响应能力有限,访问某些生产者节点可能比其他生产者花费更高。’繁忙,或者该生产者节点上的数据库可能太大,以至于搜索时间可能会过长。
为了减少与创建查询结果相关的成本,可以将这些生产者节点设置为专注于更多“local”并为可能从附近的搜索者那里收到的查询提供更广泛访问和更期望的查询结果,并且可能设置为包含更少的可能总结果,因此“相对较快且易于更新,访问和搜索。”
例
当澳大利亚某人搜索[足球]时,他们可能希望看到涉及澳大利亚足球规则的搜索结果,并且可能会设置一个数据中心或附近的数据源(在澳大利亚),以便更快,更省钱地访问有关澳大利亚人统治足球比有关美式足球的信息,或大多数美国人称之为足球的信息。搜索有关[足球]信息的欧洲人希望获得完全不同的结果集,并且可以优化在欧洲建立的数据中心以响应涉及这些结果的查询。美国人期望在搜索[足球]时获得完全不同的结果,并且美国的数据中心可能会针对他们的查询进行优化。
的patent filing is:
分层架构中用于结果优化的生产分布
由John Kolen,Kacper Nowicki,Nadav Eiron,Viktor Przebinda,William Neveitt和Cos Nicolaou发明
Assigned to 谷歌
美国专利申请20100318516
2010年12月16日发布
提交日期:2009年10月30日
抽象
生产者节点可以包括在分层的树形处理体系结构中,该体系结构包括至少一个分发者节点,该至少一个分发者节点被配置为在该体系结构内分发查询,包括向该生产者节点和预定义子集内的至少一个其他生产者节点进行分发。生产者节点。
的distributor node may be further configured to receive results from the producer node and results from the at least one other producer node and to output compiled results therefrom.
生产者节点可以包括查询预处理器,该查询预处理器被配置为使用与搜索与生产者节点相关联的生产者索引兼容的查询特征来处理从分发者节点接收到的查询以获得查询表示,从而从生产者节点获得结果;以及查询分类器,被配置为输入查询表示并基于其输出关于在生产者节点的预定子集中的至少一个其他生产者节点对查询的处理是否会导致至少一个其他生产者节点的结果的预测包括在编译结果中。
智能地决定将哪些查询路由到哪里
试图就应该将哪些查询路由到哪个生产者节点进行有根据的猜测’t一个选择。查询太多,涉及的信息太多。这样的系统只有在产生可提供以下内容的搜索结果后才能正常工作:“查询的最佳查询结果。”
有时,只能通过从多个生产者节点收集信息来充分回答查询的结果,但单个生产者节点回答的可能性越大,越好–它既减少了计算费用,又减少了访问延迟或时间。
因此,该系统将尝试预测在特定的生产者节点上找到相关信息的可能性,并且可能会或可能不会考虑与查询相关的特定主题或主题。记住,这是一个“prediction”在处理查询之前,可以做很多事情而无需实际找到所有结果来预测是否必须将查询发送到多个生产者节点,效果更好。
This 预测 is based upon query pre-processing that might look at query features such as:
- 查询的长度(即字符数),
- 查询中的字词数量,
- 查询的布尔结构,
- 查询的一个或多个术语的同义词,
- 与查询中的术语具有相似语义的词,
- 与查询中的字词具有相似的拼写(或拼写错误)的单词,和/或
- 查询的词组分析。
的analysis of phrases may 在 clude:
- 的length of each phrase,
- 分析查询中哪些词彼此接近和/或
- 对查询中两个或两个以上单词在其他设置下(例如在整个Internet上)趋向于彼此接近的分析。
所列发明者之一Nadav Eiron也是Google的第二代基于短语的索引专利申请的发明者之一, 使用分层和共享短语发布列表的索引服务器体系结构. 那里 might be a relationship between that type of 在 dexing and the phrase analysis mentioned 在 this 结果优化 专利申请。
Including synonyms and possible misspellings 在 the 预测, and then 在 the pages returned from the 在 dex may result 在 a larger set of search results from the data source.
查看与查询相关的这些类型的功能,可使搜索引擎对查询进行分类,以预测特定的生产者节点是否可能包含足以满足搜索者的搜索结果。
Machine learning techniques might be used to build a model regarding the probability that each producer node contains a useful amount of results to respond to a query, as well as determining whether other 生产者节点 should be 在 cluded.
Using a query model like this enables the system to make more 在 telligent decisions about whether or not there might be sufficient results from a particular data source. 的features related to each query can also be used to retrieve 在 formation from the 在 dex 在 each producer node as well.
除了查看有关查询本身的信息之外,搜索引擎还可能执行成本/收益分析,查看其他因素,例如网络当前是否拥塞,以及访问特定生产者节点的成本可能是多少。特定查询。
We’re told that the classification algorithm that might be used with query 预测s for different 生产者节点 might be a decision tree algorithm:
因此,可以选择分类算法,其试图最大化生产性查询的发送,同时最小化丢失的查询/结果。这样的示例可以包括例如决策树算法,其中基于查询特征值对查询结果进行排序,以使得决策树的节点代表正在被分类的查询结果中的特征,并且树的分支代表值。该节点可能承担的任务。
然后,可以通过遍历决策树从根节点遍历树并使用节点各自的值对节点进行排序来对结果进行分类。然后例如通过为从根节点到对应叶节点的每个路径创建规则,可以将决策树转换为一组分类规则(其可以最终形成分类模型)。
也可以使用其他可能的分类算法,并且可以使用训练数据集与该分类系统一起工作。
Actual results produced from a particular producer node may be compared to the 预测s regularly to make sure that the classification model is working well, or needs to be updated.
旁注
当寻找有关参与本专利的发明人的更多信息时,我遇到了一位发明人的简历,并认为他的部分涉及他在Google所做的工作可能对于那些寻求有关Panda的更多信息的人来说很有趣:
约翰·弗雷德里克·科伦
就业机会
8/2008-5/2011 Senior Software Engineer (Web Search Infrastructure), 谷歌 , Inc., Mountain View, CA.
Developed 机器学习 approaches for optimizing the quality of and resources used for web search. Experience with large-scale distributed systems. Developed metrics for 网页相似度.
我们对参与Panda升级的人员知之甚少,除了名字为“Panda”提供了所涉及系统开发背后的一些动力。
一个站点或多个站点上的相似网页的显示方式似乎是Panda升级的重要问题,机器学习方法也可以根据质量对网页和网站进行分类。一个或多个与此相关的人 可能会导致优化 patent may have also been 在 volved with 熊猫.
老实说,比尔,我真的没有’不能完全理解这篇文章中的所有内容,但我会这样说…这种设置听起来像许多节点几乎都用于缓存搜索查询。另外,如果使用不同的节点来实现不同的结果,那么似乎类似的事情确实可能是可怕的原因。“Google Dance”我们都熟悉的
有趣。
标记
这解释了为什么site:查询返回不同数量的总结果。
这很有趣…。实际上很有可能…
@马克同意了!!
哇,比尔(Will Bill)很高兴看到这样的技术性眼光,而不仅仅是一般的猜测(就像其他地方可能写的那样)。
当然可以帮助解释在不同机器/位置上搜索之间的一些随机性。尽管部分原因是Google看到哪些结果获得了最佳的点击率。
是的,很难理解不同数据中心的工作原理,但是您的帖子解决了我的许多查询,并且使我对数据中心的工作理解有所清除。
您 really helped me understand more about how different data centers work, thanks for sharing!
这是对Google处理搜索查询的方式以及通过不同数据中心处理查询的方式的很好观察。一世’渴望了解更多信息,并希望阅读更多该博客!
嗨,本
那里 may be a couple of 原因 why you may see different numbers of results for most queries, 在 cluding those using the site operator. It’不同的数据中心可能会列出不同的数量。但是,根据至少几项Google专利,通常您看到的查询结果报告数量是估算值(至少在结果的第一页上),基于对Google大约2%到10%的关注’s 在 dex.
再说一次’搜索引擎试图做最有效的事情而不是最准确的事情。仅查看和计算排名顺序并返回有限数量的结果(对于任何一个查询而不是全部查询),搜索引擎在计算和速度方面的花费就更少。因此,我们看到的查询结果数不是’完全可靠。
嗨,马克,
感谢您的反馈意见。一世’ve添加了该专利的一些图片,并对其中的一些内容进行了扩展,使其更具解释性,但是从某种程度上讲,这个话题很复杂。
缓存流行查询肯定会发生,但这不是’真正关于缓存。它’通过优化数据中心以使查询更有可能来自更靠近其所在地的搜索者,从而使搜索更加有效。
的“Google Dance”几乎每月更新一次数据到Google’的索引直到2003年左右才出现,当时Google开始以更加及时的方式向其索引中添加内容。尽管此专利申请有趣的一件事是查询的分类是’持续发生的事情却经常发生–它可能每天,每周或每月完成,但事实并非如此’不断更新Google的方式’s 在 dexes are.
嗨,赛勒斯,
谢谢。
嗨,迈克,
当我遇到其中一个搜索引擎的白皮书或专利中的某项内容时,我会喜欢上它,这有助于解释和详细说明我们可能从自己或他人的经验中学到的关于搜索引擎的一些知识,但是’除了我们可能对它们做出的那些观察和结论之外,没有更多的细节。
It’绝对不仅仅是点击率– it seems like there’s在这种分类方法中的作用是绘制查询会话中搜索的不同术语之间的关联,以及如何通过基于短语的索引之类的方式关联单词。
嗨杰米,
您’re welcome.
我确实在一个绝对绑定到一个数据中心的位置上工作,而又住在另一个数据中心所在的位置,这真是一件有趣的事,当我从不同的位置执行相同的搜索时,会看到会有什么不同。
我不仅会看到不同的结果,而且我还记得甚至根据这些位置看到的一组页面的工具栏Pagerank得分也不同。一世’我不太确定为什么要在这一点上做。我怀疑有故障,但想知道是否还有其他问题。
嗨维沙尔
谢谢。阅读专利申请并撰写本文后,我现在有很多新问题。其中之一是不同的数据中心是否具有不同的补充索引,每个补充索引中的内容都不相同(听起来像这样)。另一个问题是保存流行查询结果的缓存在一个数据中心与另一个数据中心之间是否趋于不同。语言和国家/地区偏好在可能位于不同数据中心的数据中扮演什么角色?
你好乔纳森,
谢谢。我倾向于将这个博客作为笔记本的一部分,以了解我对搜索和搜索引擎的了解,希望我们可以一起学习。
那么,我们可以根据该查询的类型或分类来解释是否存在决策树?可能有助于确定何时显示Onebox结果以及应该显示哪个Onebox?
从高层次看,显然Google可以理解查询的本质–从本地到产品再到健康再到音乐。但是正如您提到的,了解Google如何得出这些结论是很有趣的。
熊猫似乎是决策树的一部分,在它进入算法的其余部分之前充当过滤器,从本质上将站点划分为高质量的存储桶。它还说明了熊猫为什么会在网站一级而不是网页一级产生影响。
的‘web page similarity’有点很有趣。一世 ’我看到一些轶事证据,使我相信Google可能会对那些阻止其应用关键字聚类的网站不满意。当站点始终针对根词的稍有不同的修饰语时,似乎会发生这种情况。因此,这两个页面‘top rated cameras’ and ‘best cameras’可能太相似了。
正确与否’值得思考的有趣的东西。
嗨,AJ,
决策树很有可能会用于识别与查询关联的功能,以对这些查询进行分类。
I’我不确定这是否会成为确定是否应显示单一框结果的推动力。我的一些东西’ve阅读有关OneBox结果的信息似乎表明,情景相关性评分可能是包括其中一项的驱动力(例如,打算乘飞机,查看体育赛事的评分或时间表,查找当地天气等)。 )另一项Google专利文件指出,点击和鼠标悬停可能会用于确定搜索引擎是否还会继续显示OneBox结果。
熊猫似乎确实是在识别与特定页面和站点相关联的功能,并根据与那些功能相关联的质量得分对这些功能进行评分。它’Google很有可能使用决策树流程,尽管它也可能使用其他分类方法。碰到这个很有趣“results optimization”取得专利,并了解如何使用决策树对不同数据源的查询进行分类。
的questions that Amit Singhal posed about 熊猫 did come at 网页相似度 from at least a couple of different directions, asking about both the originality of content, and whether or not a site contains “关于相同或相似主题的重复,重叠或多余的文章,关键字的变化略有不同。” I’d也想看看Jeff Kolen在Google期间制作的网页相似度指标。
想起来绝对有趣。
法案,
我没有’无法读取Onebox正在进行的演示可能会受到用户行为的影响。感谢您提供的信息。
关于熊猫的一种理论(或者也许是’这只是我的理论),Panda从网站上抽取了代表数量的网页,并对其质量进行评分,以产生网站级评分,以用作结果过滤器。如果太多页面得分不佳,则Google会认为该网站的总体质量很差,因此赢得了’对该站点应用尽可能多的算法资源。
That might explain why 熊猫 is a site and not page level attribute and would make the advice to remove shallow content from your site corpus make more sense.
的question that keeps coming up for me is: “Why is 熊猫 applied at the site level and not the page level?”
由于计算限制而鼓励更好的内容或必要性是否有目的?
嗨,AJ,
I’过去写过一些有关OneBox的文章。早在2007年,我在Search Engine Land上写了一篇介绍它的专利,并描述了用户在Google上的活动’的垂直搜索引擎可能会影响OneBox结果是否会显示在Google中’s Web results:
谷歌 ’s OneBox Patent Application
当然,天气,航班,体育比分,唐’确实依赖于将用户行为选择为单一框结果,但可能以其他方式触发。例如,[定义:xxxxxx]或[什么是xxxxxx]可能会触发定义OneBox结果。
我在帖子中针对响应式查询写了有关OneBox结果类型的文章:
谷歌 订阅d 链接 Patent: Why Do Some OneBox Results Require No Subscription?
谷歌 确实发布了一份专利文件,描述了他们如何使用鼠标悬停来确定搜索者对搜索结果和OneBox结果的兴趣和关注程度:
Where you Point 您r Mouse May Influence 谷歌 Search Rankings, Advertisement Placement, and Oneboxes
不确定Google是否一直在密切关注鼠标悬停,但是它’用户行为很可能会影响单一框结果是否挂起,至少对于那些’t由模式查询触发。
It’来自Panda的质量得分可能会逐页或在整个站点范围内实施,甚至可能跨多个域实施。当我写有关Google专利的文章时, 从搜索查询流中获取和使用文档和站点质量信号 在 谷歌 ’s Quality Score Patent: 的Birth of 熊猫?,我注意到该专利的一件事是,它可能会在每个页面或每个站点上或更广泛地应用,以便某些类型的站点可能会基于诸如以某种语言,在特定国家/地区托管,甚至着重于特定主题或拥有共同所有权的一组网站。
的process described 在 that patent appears to be more focused upon associating a specific site or sites with a certain query, based upon a quality score for those sites based upon a few different features.
It’熊猫质量得分也可能适用范围非常狭窄或范围更广。这些分数可能基于从机器可理解的因素中得出的广泛特征,这些因素是对Amit Singhal发表的有关熊猫的场地质量问题的回答。
I’我不确定Google只是从网站上抽取代表性的网页样本来得出全站得分,但是Google员工一直在强调该更新建议阻止或删除或改善网站上质量较低的网页,并且还建议不良页面可能拖累好的页面。
一如既往的好文章Bill。
的decision tree development is 在 teresting and it’令人耳目一新的看到谷歌视图,而不是一个隐含的重点文章。
虽然有一点不同–有关搜索的示例“football”当然涵盖了欧洲,澳大利亚和美国的观点,但是’通过在用户位置上进行一次IP查找并重定向到相应的Google页面即可解决此问题–英国的.co.uk,奥兹(Oz)的.com.au和美国的.com?
如果我使用术语AWE在英国AWE中搜索我的网站:
的first thing I see is Atomic Weapons Establishment 在 the UK.
在美国,我们看到了AWE Tuning。
在澳大利亚,我们看到了澳大利亚石油和
天然气勘探与生产公司。
在此示例中,如果地理位置是显示的索引结果中的决定因素,那么通过针对该地理位置校准机器学习代码,我想这可能是一种简化数据中心资源的方式。
您’我肯定给了我一些比尔的思考!
嗨,比尔,
感谢您提供这样的技术见解。感谢您的努力。通常,我倾向于使用Yoast Unpersonalized搜索插件来检查结果。您认为数据中心是否也有可能对此产生影响。
我喜欢足球的例子,在欧洲,你不会’希望看到有关澳大利亚规则或美式足球的许多结果,因此Google必须读取用户的位置并根据区域设置发送信息
嗨,比尔,
迷人。我认为它’Google在数据中心之间进行负载平衡是完全合理的。您是否认为通过Chrome中的即时页面进行预取会增加这种负担?
干杯,
你好汤姆,
Thank you. 的decision tree approach may show up 在 some other places 在 谷歌 patents, like the features that 谷歌 might use to weigh links 在 their Reasonable Surfer approach to PageRank. My post on that is:
谷歌 ’s合理的冲浪者:基于链接和文档功能以及用户数据的链接价值可能会有所不同
我认为Google希望人们能够决定他们是在搜索中使用Google.com还是在一个国家/地区的Google域中使用该域名,因此’急于将重定向重定向到他们。另外,IP地址是’不一定总是能最好地表明人们的实际位置。例如,通过AOL之类的服务访问Web的人将通过位于弗吉尼亚州的代理服务器,即使他们不是’在州附近的任何地方。
对于您的缩写[AWE]这样的术语,很可能会有多种结果对此作出响应,并且它们可能来自多个数据源。该查询可能没有一个压倒性的单个结果,并且Google可能还会尝试确保它们在响应该结果的前十名,前50名或前100名中提供多样化的结果。由于这个词是’非常具体,可能很难将意图与该术语相关联,或者暗示像您可能能够对[Pizza]或[plumber]之类的地域意图进行操作,’建立一个分类模型可能不是坏主意,该分类模型可以基于在Web上找到的实际数据甚至使用数据来决定访问哪个数据中心。
如果你’在英国,您在加利福尼亚州的理查德·尼克松(Richard M. Nixon)总统图书馆和博物馆中进行了搜索,那么就很难猜到美国西海岸附近的数据中心可能不是一个不错的选择。但是那’与特定地理位置紧密相关。对于更多含混不清的查询,像本专利中所述的系统可能首先会着眼于您附近的数据中心。
您好Stefan,
您’re welcome. I haven’t looked at Yoast’s plugin, so I’我不知道它是如何工作的。如果通过添加从结果中删除个性化设置的特定参数来起作用,则可能不会影响Google如何选择从中接收结果的数据中心。
嗨,菲利普,
I’过去,人们倾向于将国家偏见归因于人们在世界不同地区搜索[足球]时看到的不同结果,但是’预计数据中心的选择也可能会发挥作用。至少到现在为止。
看我的帖子: Changing 谷歌 Rankings 在 Different Countries for Different Searchers.
It’首选国家偏见可能会与这种方法一起使用,以预测从哪个数据源显示信息。
克里斯,你好
It’预取确实有可能添加一些东西,这意味着像这样的方法将有助于识别最佳数据源,并可能优化结果,从而使附近的数据源成为大多数人查询的最佳选择。服务,将有助于减少所需的带宽。
法案–一篇非常有趣的文章。
您知道Google拥有/租用了多少个数据中心?您是否认为每个国家/地区的特定Google版本至少有一个数据中心?
嗨,布莱恩,
谢谢。 谷歌 确实分享了有关其拥有的数据中心的一些信息,但他们似乎对自己不拥有的数据中心保持沉默’t.
This 2008 文章 points out some locations that 谷歌 doesn’t在他们的页面上列出:
Where Are All 的Google Data Centers?
他们告诉我们:
那是3年前,我希望Google可能会扩展得更多,包括芬兰的一个数据中心,它将完全被海水冷却。
谷歌 ’s 语言工具 page lists 184 cc tlds that 谷歌 is available at, so they might not have one data cetner for each of the country specific 本地 domains.
今天真是太好了,我已经学到了很多信息。谢谢比尔。一如既往的评论太多。
嗨安德鲁,
您’re welcome.
I had never thought of this matter 在 such depth. 的post was very technical, unlike others I’ve read that’或多或少的猜测。关于数据中心如何影响搜索结果或不影响搜索结果,这为我解释了很多事情。
嗨乔治,
我发现该专利中描述的方法也很有趣。我可以’t say that I had seen something from any of the search engines before that described 在 such great detail how they might decide to send someone to one data center or another 在 response to a query, though I had read a good number of blog and forum posts that described generally how things like load balancing was likely 在 volved. 的patent went beyond load balancing to describe other 原因, 在 cluding efficient uses of resources to decide whether they might send a searcher to one data center or another.
法案,
我了解所有这些。我虽然可以解决。我有一个网站,在该国的某个地区(北部)排名很高,而在南部则是第二,第三甚至第八页。一些竞争对手(而且我知道他们在SEO方面做得很好)被均匀地摆在各处。
让’s put it this way
的3 competitors are 在 variably ranked 1,2 and 3 for most keywords 在 the north and my site is ranked 4th. In the south, I am nowhere.
关于如何解决此问题的任何意见都是巨大的。
谢谢!