海边的SEO⚓

直接从搜索引擎学习SEO

搜索引擎如何对机器人和人类的搜索查询流量进行分类

分享是关怀!

能够对来自机器人和人类的搜索查询流量进行分类的价值

搜索引擎的某些访问者是寻找信息的人。其他访问者可能具有访问搜索引擎的其他目的,甚至可能不是人类。

Instead, those automated visitors may be attempting to check rankings of pages in search results, or conducting keyword research, or providing results for 游戏s, or even be used to identify 现场s to spam, or to alter click-through rates. It can be helpful for a search engine to be able to classify search query traffic, to understand if that traffic is coming from human searchers.

这些非人类的访问者可能会耗尽搜索引擎的资源,并歪曲搜索引擎可能考虑用来修改搜索排名和搜索建议的可能的用户数据信息。

多年来,谷歌已经要求其访问者不要使用此类程序。在他们的 Google网站管理员指南,他们告诉我们:

唐’请勿使用未经授权的计算机程序来提交页面,检查排名等。此类程序会消耗计算资源并违反我们的服务条款。

It’所有主要的商业搜索引擎都有可能开发出多种方法来尝试区分人类访客和自动访客或机器人。

Microsoft最近的一项专利申请告诉我们它可以用来区分手动搜索和自动搜索的一些方法:

分类搜索查询流量
由Greg Buehrer,Kumar Chellapilla和Jack W.Stokes发明
分配给Microsoft
美国专利申请20090265317
2009年10月22日发布
提交日期:2008年4月21日

抽象

用于对搜索查询流量进行分类的方法可以包括:接收多个标记的样本搜索查询流量,并生成划分为人类身体极限特征和查询流行为特征的特征集。可以使用多个标记的样本搜索查询流量和特征集来生成模型。可以接收搜索查询流量,并且可以使用该模型对由人工生成或自动生成的接收到的搜索查询流量进行分类。

当搜索引擎跟踪搜索者使用的查询时,它可以收集与这些搜索有关的大量信息。

该信息可以包括关键字本身,以及有关查询的元数据,例如:

  • 搜索查询字符串,
  • 搜索查询结果页面,
  • 搜索查询输入源,
  • 唯一的标识符,用于标识用于输入搜索查询的用户或设备,
  • IP(互联网协议)地址,
  • 查询时间
  • 点击时间,和/或;
  • 其他信息。

当这些查询被搜索引擎接收到时,可以基于它们是由人工搜索者还是由自动化过程生成的,来对它们进行分析和标记。

那么,您如何考虑查询是由人还是由机器人提交的?

搜寻者的身体限制

区分人与机器人之间的查询的一种方法是保留人类的某些身体限制。专利文件告诉我们一些关于:

–人类在任何一个时间段内只能进行如此多的搜索。有人可能会在10秒内提交100个查询’是人类。一天之内,来自同一搜索者的200条查询似乎也不大可能。我们’告诉一个用户搜索该词“mynet”一天中有12,061次。

位置 – It’一个人很难同时在一个以上的地方。但是搜索引擎可能会跟踪用户ID所使用的IP地址,并查看是否从该ID进行了查询,查询是否来自相距遥远的不同位置。它’对于某人来说,在不同的位置(例如,在家中,公司或移动设备中)使用不同的计算机并不罕见。但是查询时间间隔很远,可能很好地表明正在使用僵尸网络,或者有人使用匿名浏览工具但未禁用cookie。

行为特征

尽管上述物理限制可能有助于识别自动查询,但是’可以简化自动查询,因此这些查询似乎更像是来自人类的查询。

可能有行为指示表明查询是自动的。一世’以下包括一些专利申请的发明人告诉我们的模式,这可能是他们的系统用来确定搜索来自自动程序还是人工搜索器的某些东西。

点击率

人们有时会点击显示在搜索结果中的页面。我们’re told that “通常,用户在十个查询中至少单击一次。”自动化程序通常不’t点击搜索结果,以便搜索引擎寻找某些内容。

有些漫游器会收集有关某些目标URL的其他信息,因此可能会针对这些URL显示不同的模式集。

We’告诉我有三个“typical”漫游器点击率:

  • 没有点击链接的机器人,
  • 点击每个链接的机器人;以及
  • 仅点击目标链接的漫游器。

机器人按字母顺序搜索(有时)

搜索是否有模式,例如按字母顺序搜索术语?如果是这样’更有可能是自动搜索。

机器人使用垃圾邮件词搜索

We’有人告诉我们,某些单词的垃圾邮件得分往往比其他单词高,并且提交包含大量垃圾邮件术语的查询的用户ID更有可能由计算机程序提交。倾向于关注成人内容的查询也是如此。

查询关键字熵

倾向于极端冗余的查询可能是自动搜索的信号。例如,搜索有关股市术语的股票报价块可能包含所有趋向于相同长度的搜索。

查询时间周期

来自特定搜索者的查询之间的时间量可以被记录以用于测量查询之间的时间,或者各个查询和点击结果之间的时间。根据这些时间找到的模式可能表示来自机器人的请求。

高级查询语法

一天中有许多使用高级搜索运算符的搜索,例如“allintitle:” or “allinurl;”可能会被视为来自自动流量。

类别熵

可以为特定查询分配类别。当来自特定用户ID的许多搜索属于少数类别时,它会’这些搜索可能来自自动化程序。

声誉和趋势

从列入黑名单的IP地址或列入黑名单的用户代理或特定国家/地区代码进行的搜索可能表示漫游器处于活动状态。

有些漫游器会非常频繁地搜索稀有查询,有些漫游器可能会在会话中使每个查询显得毫无意义。用户经常单击结果的可能性很小的查询也可能表示自动搜索和单击。

结论

我没有’列出了专利文件中描述的有关如何对搜索查询流量进行分类的所有方法,我希望还有其他模式可以用来区分两者。’t included either.

该专利申请告诉我们,它可能会标记收到的查询,但不会’告诉我们如何使用这些分类。

像任何网站管理员一样,来自搜索引擎的人们希望能够了解他们的流量来自何处以及网站的使用方式。它’如果搜索引擎认为正在从自动化程序接收到查询,则可能会使用CAPTCHA之类的东西来挑战那些查询的源,以供该搜索者填写,以确定该搜索者是个人还是程序。

分享是关怀!

关于25条想法“搜索引擎如何对机器人和人类的搜索查询流量进行分类”

  1. 好帖子,比尔! ðŸ™,

    但是,事实是,网站管理员,SEO和研究人员一直具有并且将永远具有研究搜索数据的合法需求。只要引擎不提供准确可靠的API(收费或不收费),“we”将需要刮擦。任何TOS或智能系统都不会完全阻止这种情况。

    引擎的解决方案是提供良好的API。大多数专业人士都不介意为此付费。毕竟,与API相比,通过API对所需数据进行结构化和可靠的访问可以节省大量的开发时间。

  2. Hi 米克尔 ,

    谢谢。讨论应用程序编程接口非常吸引人,但是我试图克制自己,并专注于搜索引擎如何花时间分析它们所接收的查询,以及他们可能进行的模式匹配以了解这些查询可能出现的位置从。

    就其本身而言,API本身是一个很大的话题,值得发表很多文章,但是我想您’没错,我至少应该提一提他们。

    谁提供API?在使用上有哪些明确的限制?现有的API是否有限制,应加以更改以使其更加有用?这些数据接口可以创造性地使用哪些示例?是什么使API成为好API? (来自Google研究人员的这份文档至少在API设计中开始了这一讨论: 如何设计良好的API及其重要性)使用网络搜索API之类的内容时是否会错过一些重要信息,而您会发现是否进行了手动搜索,例如由于域名折叠或由于位置或过去的搜索历史定制了搜索而导致的重新排名相关主题还是因为包含混合搜索结果或其他功能/排名?

  3. @mikkel完全同意。那里 ’除了向SE散布垃圾邮件之外,网站管理员对网站管理员的价值。我认为它就像社交网络。如果Twitter没有’没有API的人将不得不刮擦提及自己的品牌。它’这不是尝试发送垃圾邮件,只需了解其在流量范围内如何在垃圾邮件中表示。

    我最终认为社企不是’冒着为实际用户提供错误结果的风险,只是为了阻止自动查询(超出CAPTCHA)。他们’如果您愿意,那么现在就已经足够了,任何进一步阻止机器人的努力都可能为这些努力带来相当可观的回报。

    什么’有趣的是,我’我什至不确定使用Google’例如,用于排名监控的AJAX搜索API甚至符合其TOS。

    通过 http://code.google.com/apis/websearch/terms.html

    “作为示例而非限制,您同意,在使用服务时,您不会,也不会允许用户或其他第三方:

    # use any robot, spider, 现场 search/retrieval application, or other device to retrieve or index any portion of Google Search Results or to collect information about users for any unauthorized purpose;”

    绝对希望听到您对不同的SE API使用Bill的想法。

  4. 我认为自动排名检查工具在SEO工作中不太重要。 Webanalytics可以完成工作。与分析工具相比,网络分析中的关键字强度,转化率和搜索行为更好。 Webanalytics成为我们的日常工具。

  5. 嗨,大通

    我同意你的看法–API可能有很多价值。我非常喜欢的API之一就是Google Maps API,它导致了许多有趣的mashup的创建。

    我认为写一篇关于不同SE API使用的文章可能会很有趣– it’我宁愿自己作为帖子而不是在对该帖子的评论中进行操作。谢谢你的主意。

  6. 嗨,雷诺,

    I’多年来,我一直对自动排名检查有这种感觉。那里’在日志分析和网络分析中可以找到很多可行的信息’花时间检查查询页面的排名会遇到麻烦。排名检查会遗漏搜索引擎在搜索结果中所做的某些事情,例如根据搜索者的地理位置自定义一些结果。

  7. 在当今信息技术时代,自动化是我们日常生活的一部分。自动化某些流程(例如对机器人的委派密集搜索)有时具有商业意义。这完全取决于该数据的最终目标或用途。

  8. 嗨乔尔,

    I’我不确定我能告诉您多少,但是我可以告诉您Google已经发布了很多专利申请和白皮书,讨论了如何进行专利申请,并且有迹象表明其中某些流程已经到位,例如自定义搜索搜寻者的搜寻结果’甚至根据其他搜索者的搜索模式登录了个性化搜索。

  9. 嗨,嗡嗡声,

    我同意你的看法–明智地自动化业务流程确实是有道理的,但是需要以一种 ’可能会损害拥有和维护那些业务流程中涉及的数据的参与者。如果搜索引擎根据禁止某些活动的服务条款提供信息,那么尝试以违反那些服务条款的方式访问该信息可能是一个有问题的方法。搜索引擎提供可以帮助其用户自动化业务流程的API的明智之举,即使这些业务流程附加了服务条款。

  10. 我不’我不知道这里是否有人有过这种经历,但是我在一个相对较小的电子商务网站上工作,我们内部进行所有关键字研究。我们特别注意“allintitle”关键字竞争,但从未找到能够为我们可靠地自动化该过程的工具或软件。因为我们 ’在一个小众市场中,我会手动进行所有allintitle查询,但是在运行了几次后,我经常被Google封锁。

    显然,我可以比人类更快地复制粘贴和键入内容。

    最初,Google开始向我显示一个包含验证码测试的错误页面,但过了一会儿,即使该选项消失了,我也会被完全列入黑名单。有时长达数小时甚至数天。

    我已经检查过Google’的服务条款,甚至试图反复与他们联系以查找是否存在’限制了人类输入的查询,因为我确实运行了很多查询。有人告诉我没有’t,但Google仍然认为我’m自动化软件。

    现在,当我搜索时,我尝试避免使用模式。我尽量避免陷入“rhythm”,在一天中的不同时间进行搜索,并且搜索字母顺序不正确的字词。这似乎有所帮助,因为阻止的频率降低了,但仍然会发生。

    噢,除了具有讽刺意味的悔外,实际上,我们拥有自动软件,可以针对我们的SE排名进行抓取,并且绝不会曾经被任何引擎阻止过。我已经经常被allintitle的东西屏蔽后才开始使用它,所以我知道’不是我们问题的根源。

    最后,抱歉,这么长的时间让我有点厌倦了Google如何看待一种理解自然的渴望’的交通和竞争是邪恶的边缘。我的公司未尝试向引擎发送垃圾邮件或“game”系统;我们只想了解我们业务的前景。它’就像想开一家实体店,而又不允许其查看要建镇的地图,或者被拒绝访问人口报告。

    有趣的是,我公司确实致力于为内容丰富的引擎和客户适当地优化我们的网站。最重要的是,我们使用PPC,所以我们’还向Google客户付款。所以基本上我觉得我们’正是因为Google想要我们做的事情而被打在脸上。总渔获量22。

    好,现在下车肥皂盒。

  11. 仅提供Yahoo Boss之类的API即可解决许多问题。否则,像我们这样的分析性饥饿人士将始终努力寻找更好的方法来查看我们和比赛的排名。

  12. 嗨,波莉,

    分析中有很多值得一看的信息,这些信息可以产生一些有趣的想法,以供撰写主题,更改内容等。此外,我们仅通过查看搜索结果(无论是自动还是手动)看到的某些搜索数据可能会产生误导,特别是对于个性化结果,并且可能会根据查询会话期间的位置和搜索模式等内容来定制结果。

  13. 克里斯,你好

    I’在对薄型薄膜进行多次手动查询后,已经看到了CAPTCHA测试“allintitle:” searches, but haven’t been blocked.

    我也理解想要尝试理解为什么某些结果显示在什么地方,何时以及为什么其他结果可能会发生变化的愿望,当您面对的是像搜索引擎这样的系统会直接影响您的业务时。尽管这些搜索结果可能很重要,’尝试寻找其他吸引访问者访问您网站的方法绝不是一个坏主意’一定要依靠搜索引擎。有趣的是,其中一些方法实际上也可以帮助您增加搜索量。

  14. 嗨,RG,

    那里 is value to having APIs, not only for people interested in the data, but also for the search engines themselves. 雅虎老板 绝对是API如何促进创新并提供可改善搜索效果的工具的一个很好的例子。

    我上面写的专利申请确实没有’尽管深入探讨了API,但该线程中的注释肯定已经改变了。通过这样的编程接口,搜索(以及网络上的许多其他应用程序)的未来可能最终会看到其最大的增长。

  15. 我想我可能是少数几个反对bot /自动搜索查询(尤其是排名监控)的主意的人之一。

    如果我正在选择关键字,我想知道我在这些关键字上的排名。我想知道我正在取得的进展,也想向任何人展示我正在为该信息工作的人。

    所有良好的SEO进度报告都应包含此信息,虽然客户可以挂在其上,但是如果给予过多的关注,这可能是一件坏事。

    我承认这不应该是唯一的重点,其他所有指标(例如网站停留时间/转化时间等)都至关重要,但是我无法理解为什么人们经常说这是衡量/关注指标的不良指标。所有其他指标的起点。

    您的转化率可能是100%,但是如果您因为未列出而吸引了很少的点击量,那么您并没有真正到达想要的位置。

  16. 嗨吉米,

    随着搜索引擎在搜索结果中引入越来越多的个性化设置,搜索结果在不同浏览器之间的差异将越来越大。

    排名报告在提供实际结果方面确实面临着一项不可能完成的任务–当观众从一个观众切换到另一个观众时显示排名。分析将成为用来向客户显示SEO进度影响的工具。

  17. I’ve偶然发现了这篇文章’s something we’最近我一直在考虑很多,特别是在AdWords和我们看到的搜索查询量方面。我们的问题是Google报告中有多少比例的查询来自自动排名检查程序?当我们每月看到1万次展示时,实际上是在查看5,000次实际搜索吗?由此产生的问题是,我们的广告效果会受到多少影响–如果正在进行许多自动查询,我们的广告肯定不会受到我们的过错的惩罚。从简单的角度来看,对于Google而言,查看点击数据并过滤出从未导致点击的查询似乎相对容易,这可能是机器人或脚本的合理指示。

  18. 嗨尼克,

    毫无疑问,’这是一个值得问的问题。

    Google确实有一些方法可以尝试了解何时自动执行搜索查询。通常,自动程序检查排名遵循的模式可以根据多种信号(例如我在帖子中描述的信号)进行识别。

    米克尔 ’的建议,在此帖子的第一条评论中,建议使用API​​供研究人员使用也将非常有帮助。

    人们经常但不’总是执行多个搜索,尤其是当他们的第一次搜索没有’没有想要单击的任何结果。搜索引擎不’不仅查看单个搜索查询,而且经常查看整个搜索会话,并以多种方式在这些会话中使用信息。在分析这些会话时,他们还可能尝试识别自动会话。并非所有没有点击的查询都来自漫游器,但是,如果您在搜索查询中有大量的搜索字符串,并且没有一个导致点击,则可能会更好地指示自动搜索。

  19. It’尽管对自动搜索很有趣,即使您’如果您进行常规搜索,您可能会混淆Google,并要求您输入安全代码以验证您的’不是机器人。我想这取决于您的速度’re searching.

  20. 嗨圣地亚哥SEO,

    好点子。一世’在使用手动进行多次连续搜索时收到了验证码消息“site” searches even when 我不e those somewhat slowly. Speed may be one thing that they look at, but it’不一定是唯一的事情。

评论被关闭。