搜索引擎如何对敏感网页进行分类

分享是关怀!

鉴于Google的熊猫更新,我’一直花大量时间研究搜索引擎如何使用自动化程序对网页进行分类以及它们如何使用这些分类。如果你’重新成为网络发布者’您可能也会对此感兴趣。如果您展示官方网投,那么Google如何看待官方网投以及在何处展示官方网投?您对颜色,字体样式和大小,列数,标题和页脚的大小,关于页面和隐私权政策的选择以及网站上的其他功能的选择如何影响Google对页面的感知,分类和评分方式?

有关Google的书中描述了一个问题示例,其中页面分类可能对搜索引擎有帮助 史蒂文·利维, 在丛中。作者向我们介绍了一些Google Adsense官方网投素材,这些官方网投素材在自动匹配官方网投和显示这些官方网投的页面方面显示出挑战。一个特别令人反感的比赛是Google的一个塑料袋官方网投,该新闻在新闻页上显示了有关受害者的惨案,’的尸体用塑料垃圾袋处理。机票可能会放在有关飞机失事的页面上。在一张页面上出现了一张优惠券,该券在一家特定的连锁餐厅提供2人的免费晚餐,该文章的文章介绍了几个人在该连锁餐厅的餐厅用餐并遭受食物中毒。作者指出:

谷歌工程师开始研究减轻此问题的方法,但永远不会消除它。对于训练有素的算法来发现文章和官方网投之间的匹配以行使人类良好品味来说,这太困难了。

我不’t believe that I’我曾直接从Google取得有关此主题的专利或论文,尽管几年前我确实写过一篇文章, How 谷歌 Rejects Annoying Advertisements and Pages,它描述了Google在使用自动化流程审核官方网投时可能会寻找的许多事物。

我在那篇文章中写的专利, 检测和拒绝烦人的文件,于上周获得批准。它着眼于可能与官方网投和登录页面相关的大量功能,这些功能影响官方网投是否可以被接受。但这不’•讨论是否认为某些官方网投不适用于可能会在其上显示的某些网页。

微软本周获得了一项专利,该专利是他们想出的一种方法,旨在避免在网页上显示不适当的官方网投,尽管它’s possible that they’ve用新的东西代替了他们在专利中详述的过程。在2007年初,您可以访问Microsoft AdCenter Lab并查看用于“检测敏感网页”在搜索引擎提供的实验产品中。

屏幕快照显示了Microsoft Adcenter通过Wayback Machine提供的“检测敏感网页”工具的一部分。

I’我不确定该工具本身对网站所有者有多大用处,但我确实在Web指标Guru上找到了一篇博客文章,其中显示了该工具的结果 Microsoft AdCenter Labs新增和改进的Beta版工具–敏感页面检测.

该工具的目的是查看网站一个或多个页面的内容,以预测“sensitivity” level associated with that content, and to determine whether or not it fits within certain 灵敏度 categories. The patent behind the tool is:

敏感的网页内容检测
李英,特蕾莎·玛莎,杰彤,辛金,萨利尔·萨特和徐静怡发明
受理人:Microsoft Corporation(华盛顿州雷德蒙德)
美国专利7,974,994
2011年7月5日授予
申请日期:2007年5月14日

抽象

描述了用于敏感网页内容检测的计算机可读介质,系统和方法。在实施例中,开发了多类别分类器,并且接收具有网页内容的一个或多个网页。在各个实施例中,一个或多个网页用多类分类器进行分析,并且在各个实施例中,预测与一个或多个网页的网页内容相关联的敏感度水平。在各种其他实施例中,多类别分类器包括一个或多个灵敏度类别。

该专利的流程图显示了检测可能不适合同时显示某些官方网投的内容所涉及的过程。

像这样的系统背后的数据库可能存储有关网页和官方网投的特定信息,例如:

  • 敏感度类别,
  • 敏感度子类别,
  • 多分类器信息
  • 网页信息,
  • Association information involving webpages and 灵敏度 categories and subcategories,
  • 官方网投信息,
  • 家长控制信息,
  • 论坛信息,
  • 博客信息

除了确定官方网投是否不适合特定页面外,该系统还可以用于将特定页面专门定位于时间敏感型官方网投。例如,当页面的内容涉及最近的自然灾害时,涉及救济工作的官方网投和公共服务公告可能会更容易地显示在这些页面上。

敏感和非敏感类别和子类别

该专利包括可能分配给页面的几个类别示例,并提供了“sensitive” and “non-sensitive” examples of each, involving 性别, weapons, accidents, crime, terrorism, and war. Here is their breakdown from the larger accidents category:

ACCIDENTS: 意外事故pages are pages such as news 文章 s, analysis, or commentary on events resulting in fatalities.
意外事故– 敏感: Natural disasters Vehicle crashes Household accidents
意外事故– 不敏感: Minor injuries Non-fatal, major injuries Sports injuries Natural disaster preparedness Injury prevention and precautions Injury treatment

敏感网页的分类过程

网页的分类可以通过收集许多培训页面并对其进行分类来完成,以用于以自动化方式对其他页面进行分类。例如,涉及预防犯罪的查询可以提交给搜索引擎,并且人类可以查看返回的前500个网页,以找到与预防犯罪有关的页面。然后可以将这些页面放置在一组训练页面中“crime – nonsensitive”类别。然后,通过与那些培训页面进行比较,可以将其他页面识别为属于该类别。

该机器学习系统可能会在其他页面中查找相似的短语和术语,以及这些术语出现的频率,无论该短语出现在页面顶部附近还是在页面下方的显着位置(如果在其他选项中出现)字体,例如较大的字体,粗体,斜体或带下划线的字体。

可以基于与人工审阅的页面和仅由机器学习系统看到的其他页面之间找到​​的关联来应用某些规则。例如,如果单词“sex”在页面上出现3次以上,“nude”出现两次以上,这可能表明该网页属于“sex–敏感子类别”(我最好不要使用这个词“sex” or “nude”再次在此页面上。糟糕!)

如果要分类的页面是新闻文章,博客文章,在线论坛或特定企业运营的页面,则某些规则可能会有所不同

结论

这项专利是基于对网页样本数量的人工审查,随后是针对其他网页的自动处理方法(以查看与网页相关联的功能为基础),对如何将网页分为敏感类别和非敏感类别进行了相当广泛的概述。使用在人工审核的页面上找到的特定术语。很有可能Google也会对在网页上展示的官方网投进行类似的处理。

至于Google及其Panda更新,Microsoft专利中的文件分类系统的类型旨在确定何时在某些页面上显示某些官方网投而不是复查页面以尝试确定某些页面上的内容。“quality” of those pages. Chances are that the type of many features used in a document classification to determine the 质量 of pages contains a much larger set of features, but chances are that many of the ideas behind the approach are similar, including the use of human reviewers to manually identify several “high” 质量 pages.

What kind of features might 谷歌 be looking at on your pages to determine what level of 质量 it might have?

最好通过查看Google Fellow Amit Singhal在Google网站站长中心博客文章中提出的问题来找到答案。 More guidance on building 高-quality sites。除了查看您的网站可能如何解决这些问题外,找到它可能不会有任何伤害“high 质量”在与您网站上的网页相似或相关查询方面排名较高的网站,并查看这些网站如何解决这些问题中提出的问题。

分享是关怀!

关于21条想法“搜索引擎如何对敏感网页进行分类”

  1. 法案,

    Although I can see how an addition of this type of scripting would indeed be beneficial to advertising on say, something like 敏感 news items written about taboo subjects, just think of how enabling this type of functionality would make the net less fun for those of us who frequent sites like failblog.org LOL!!!

    一如既往的出色和翔实的帖子。老实说,我认为这将是官方网投的一个很好的补充。在不止一次的情况下,官方网投客户会很难在特定页面上看到其官方网投。

    标记

  2. 谢谢比尔–另一篇很棒的文章!

    这让我想起了一个我记得读过的实验。

    注意到当在Gmail中输入电子邮件时’s可写的段落,可确保网页上没有基于关键字的官方网投。我不’记得确切的词组,但我相信它使用了创伤性事件来触发官方网投的删除。

    该专利看起来比重复提及更进一步发展了创伤性关键词理论,这肯定比依赖单个实例或基于人的标签解决方案要好。

    此外–我想通过移除官方网投可以腾出的官方网投资源可以像电视节目采用“如果您受到此编程故事情节的影响” message.

    一如既往的伟大文章Bill!

    汤姆

  3. 嗨,比尔,
    出于这些类型的原因,我几乎总是建议您不要在带有官方网投的网站上获利,那您呢?

  4. 隶属关系现在与反向链接和社交图谱有关吗?

    只是想知道我们是否必须“watch our backs”至于我们的拥护者和支持者是谁,未来还会更多。您可以’t始终控制与您链接的人。一世’我们曾多次看到不受欢迎的网站通过cr脚的小部件为您提供整个网站范围的信息,或者仅仅是因为他们试图通过使用优质网站作为OBL来使其网站更加正式’s.

  5. 敏感性对于营销至关重要。时间安排不当或放置不当的官方网投可能会使所宣传的公司在没有尝试的情况下就显得不敏感,这可能会严重影响潜在客户。一世’我会很感兴趣的去看看。

  6. 嗨,马克,

    将内容与官方网投匹配的上下文官方网投系统的意外结果可能会带来一些异常和不幸的结果。我仍然记得Altavista为我提供达赖喇嘛的折扣’数年前。

    可能这样的事情已经发生了两年多了,我认为’这是官方网投客户真正想知道您可能正在做的事情。它’对人类来说很容易犯公关错误,但是你却没有’不想让您的自动化官方网投也做同样的事情。

  7. 你好汤姆,

    谢谢。我没有’尚未听说过使用这种方法过滤Gmail官方网投的方法,但是它们会这样做是有道理的。在页面上使用特定单词的频率似乎不仅仅只是频率。其中一些似乎希望查看这些单词是否以可能使其成为页面焦点的方式被强调。

    如果您允许,Google会发布一些公共服务公告,’没有合适的官方网投来展示。很有可能,它们也会通过分类和过滤系统。

  8. 嗨,唐尼,

    对于许多网站来说,官方网投可能会分散人们对您的页面和所提供内容的关注,因此官方网投可能不是一个好主意,因此我建议不要这样做。除了可能引起的干扰之外,基于您网页上内容的官方网投可能还会针对那些可能与您竞争访客的人’ attention.

    但是许多网站都有一种商业模式,其中官方网投是它们在网站上赚钱的方式,从新闻和媒体网站到专注于提供有关不同主题信息的博客,再到论坛和其他网站,’不一定要提供商品或服务。在这些页面上显示适当的官方网投很有意义。

  9. 嗨,布伦特,

    I’我不确定反向链接如何影响页面的分类,以便确定如何“sensitive” that page might be regarding displaying advertisements. Most of the analysis seems to be focused upon content appearing upon a page rather that whether or not the page might be affiliated with some other sites, even if those other sites might cover topics that are 敏感.

    I did write about a 谷歌 patent that was granted last year in a post titled 谷歌’附属页面链接专利 这为我们提供了有关搜索引擎如何确定某些网站是否可能以某种方式关联的一些提示。虽然这种隶属关系的潜在影响之一可能是限制或限制链接传递多少链接权重,’像Panda更新中使用的那样的文档分类系统也可能正在查看来自似乎有关联的站点的反向链接。

    假设Google已通过Google网站站长工具至少发送了几条通知,通知的接收者具有指向其网站的许多操作链接。不好的一面’看到竞争对手可能会通过指向某人的链接来伤害某人而感到遗憾。从好的方面来说,这种通知可能只会使人们有机会就这些类型的链接进行对话,特别是如果他们不是’对他们负责。

  10. 健太郎

    这很重要。专利是微软’但是,很可能Google已经开发出某种流程来尝试确保它们在内容页面上显示的官方网投合适。如果他们不这样做,就有可能造成伤害’t,如果这些类型的错误定期发生,则可能会导致更少的官方网投客户,因此’肯定能够识别专利中描述的敏感页面的种类是一种激励。

  11. 当我不穿 ’认为算法,无论多么先进,都可以避免更细微的官方网投错误,它很有可能摆脱绝大多数明显的官方网投错误。

    我想’Google可能真正追求的是:避免与一般的搞笑错误相关联。因为当人们看到不适合其上下文的官方网投时,’s found in, they don’生气他们笑了。而且我认为Google只是想避免被嘲笑。

  12. 嗨布雷克,

    好点。搜索引擎收到的官方网投数量很大,确实有助于使用某种过滤器。必须手动检查页面上可能显示的每个官方网投,以查看将其放置在该页面上是否存在问题,这是太多的工作,尤其是要使诸如此类的服务可以负担得起官方网投。

    谷歌绝对希望避免出现严重错误,例如我在上一篇文章中提到的示例 在丛中。这不仅使它们看起来不佳,而且还可能是一种新闻,使企业不太可能通过Google进行官方网投宣传。

  13. 这确实表明AdWords对Google的重要性’s business model. To go through the trouble of the patent process to display some human 灵敏度 (if that’甚至对于算法来说也是可能的)。

    另外,我倾向于与唐尼(Donnie)达成共识,即不要在大多数网站上投放官方网投。

  14. 嗨,大家好,

    我认为这是非常重要的事情。前段时间,我正在与一个客户交谈,该客户的网站上刊登了一个待售别墅的官方网投,其中一位足球运动员叫大卫·维拉(David Villa)…

    那永远不会发生,尤其是当您为这些官方网投付费时。

  15. @拉法那个’太差劲了。官方网投应与您的利基融合。

  16. It’很难相信高级官方网投是如何获得的。我认为,如果它可以防止重大官方网投失误,那将是一件好事。

  17. This mechanized analysis also helps explain how pages in my realm of plastic surgery that 谷歌 ranks 高ly are often spam farms. 谷歌 needs to write an algorithm that reads proper English and exclude pages full of keyword scrabble in favor of those that read coherently. Could they not “borrow”来自字处理器制造商的此类脚本?

  18. 乔纳森(Jonathan),梅尔(Mave),戴夫(Dave)和博士

    Adwords是Google赚钱的主要方式,因此无论如何他们可以提高它是一个很好的步骤。该专利是微软而不是Google的专利,并且很有可能Google提出了自己的自动化流程来尝试确保内容页面和官方网投的组合是很好的匹配。尽管在Google中,某些比赛(例如Rafa所描述的比赛)仍会发生,’他们的最大利益’t.

    The process described in this patent has nothing to do with why some low 质量 pages might rank well for certain queries, but the kind of document classification that works behind it might be similar in some ways to processes behind 谷歌’熊猫更新,也许还可以说还处于起步阶段。它’熊猫可能确实包含一些语法和拼写检查,就像您在文字处理脚本中可能会发现的那样。

  19. i GUESS在一天结束时,只有人工编辑允许每个官方网投的人才能接近100%做出良好的匹配。由于这是dmoz的工作方式,并且我和许多人还没有获得入门的资格,因此我认为许多人将接受自动化。并且可以肯定的是,如果存在不当匹配项,则反馈机制将有助于Google清理其算法。幸运的是我目前不使用adwords!

评论被关闭。