恶意网站:识别和过滤

分享是关怀!

搜索引擎如何识别恶意网站

Unfortunately, there are web pages that can be harmful to visit. Google researchers discussed the identification of 恶意的 code on web pages earlier this year in 浏览器中的幽灵:基于Web的恶意软件分析 (pdf)。

Google论文’作者告诉我们,向计算机用户交付有害代码的重点已经从某人安装的软件转移到了通过Web直接交付给浏览器的软件。

微软还详细介绍了他们的一些研究’在他们的网站上对基于网络的恶意软件进行了 Strider HoneyMonkey页面

搜索引擎和恶意网站

When a search engine delivers you to search results filled with a list of links to web pages, should it warn you about any potentially harmful or 恶意的 code on those pages before you visit one of them?

If a search engine does scan pages for 嵌入式的 code, what implications might that scanning have for site builders?

If a search engine were to show some kind of indication that there was 嵌入式的 code, or potentially 恶意的 code, on pages, within the search results listings, would that impact which pages searchers visited?

What kinds of 嵌入式的 code might a search engine look for, and how might it try to find it?

Google论文 discusses some of the efforts that Google undertakes to try to keep from delivering people to 网站 that attempt to serve 恶意的 software to visitors:

使用我们的验证程序被识别为恶意的网站,当作为搜索结果返回时,被标记为潜在有害。用标签标记页面可以使用户避免暴露于此类站点,并减少感染的用户。此外,我们会保留有关检测到的网页的详细统计信息,并跟踪已识别的恶意软件二进制文件以供以后分析。

雅虎恶意网站上的专利申请

A recent patent application from Yahoo goes into even more depth in exploring the identification of 嵌入式的 and 恶意的 code on web pages, and the display of warnings to searchers.

搜索预警
由Edward F. Seitz发明
分配给Yahoo
美国专利申请20070294203
2007年12月20日发布
提交日期:2006年6月16日

抽象

Systems and methods for automatically delivering information to a user concerning the 嵌入式的 code contained in a web page before the user downloads the web page are disclosed.

搜索引擎除了执行用户请求的标准主题词搜索外,还搜索要列出给用户的每个网页作为搜索结果的一部分,以获取指示该网页中存在嵌入式代码的信息。

If it is determined that a web page contains 嵌入式的 code, the search results graphical user interface is provided with additional information indicating to the user which web page in the results contains 嵌入式代码。

The user may also be alerted if a web page contains 嵌入式的 code known to be 恶意的 and the order of the search results may be modified based on the 嵌入式的 code information of the web pages in the results.

识别恶意网站上的嵌入式代码

The patent application provides some interesting details on the process that they might follow to identify 恶意的 code, including the use of a database of code that they’可以在网上找到,可以与在新抓取的页面上找到的代码进行比较。

他们正在查看的脚本或其他类型的代码可以包括ActiveX,Flash,Shockwave,Javascript和样式表。

I was a little surprised 通过 the inclusion of style sheets on that list, but they point that 嵌入式的 code might be contained within a style sheet, or be pointed to 通过 a style sheet.

While there is a good amount of 嵌入式的 code on web pages, the focus of the patent document is in finding 恶意的 code that might cause some type of harm. The kinds of 恶意的 code being referred to in this patent filing include the installation of dialers, spyware, or Trojan horses.

This process might begin with a web crawling program identifying elements, such as an applet element, or an object element, or many others. This process of identifying 恶意的 code would also include virtually rendering a web page in addition to simply scanning the web page for 嵌入式的 code identifiers.

用户界面图标

该系统可能使用特殊的图标或其他指示符,以在搜索结果页面上向搜索者显示有关页面上可能嵌入哪种代码的信息。例如,带有ActiveX控件的页面可能使用一个图标,而第二个图标可能表明Shockwave项已嵌入到页面中。

Under this system, there may be a way for searchers to decide whether they want to even see such icons. Another option might be for the search engine not to show search results that have certain types of icons and 嵌入式代码。

因此,如果搜索者没有’如果不想看到使用Flash或javascript或ActiveX组件的页面,则可以有目的地将这些页面从搜索结果中过滤掉。

搜索者也许还可以选择不显示包含以下内容的页面“unsafe content.”

结论

级联样式表,JavaScript,Flash和其他代码的使用’t that uncommon these days. What percentage of pages serve 恶意的 software? Google论文 above tells us

在撰写本文时,我们已经对大约450万个URL进行了深入分析,并发现450,000个URL参与了按下载进行下载。另外700,000个似乎是恶意的,但信心较低。这意味着我们分析的URL中约有10%是恶意的,并提供了我们的MapReduce创建了良好候选URL的验证。

但这是在花费数十亿页并将其修剪成数百万的过程之后进行的。许多描述Google论文的新闻报道和文章都是从上述引用中获取数字,并指出十分之一 网站 网址 were delivering 恶意的 code to visitors, when in fact the percentage is much smaller than that.

无论如何,将搜索者传递到安装了恶意软件的页面的搜索引擎都不会’良好的用户体验。

Google添加了 恶意软件警报 去年11月底使用了网站站长中心工具,目的是让网站所有者知道搜索引擎何时向访问者提供了有关恶意软件的插页式警告。该帖子是指该网站 StopBadWare,作为Google用来识别可能被感染的网站的地方。

今年年初,当Google 已购买 the company Green Border, it appeared that they might have done so to address the downloading of 恶意的 software.

值得一读的是Google网上论坛线程,该线程讨论了插页式恶意软件警告的出现,该警告出现在用户单击搜索结果中的链接之后以及将页面交付给搜索者之前– 为什么我们的网站会经历这种头痛?

分享是关怀!

关于13条想法“恶意网站:识别和过滤”

  1. 您是否看到有关僵尸网络用.cn域名托管的恶意软件填充SERP的项目?他们基本上可以随意对事物进行排名。可怕的地狱…与此相关的是,我最近遭到了类似的胡言乱语(排名很高,我点击了),防毒服务的价格为260美元… :(!

  2. 可以肯定的是,雅虎的专利是’t worth the paper it’由于McAfee等现有技术而撰写’的SiteAdvisor成立于该专利于2005年4月提交之前的一年,对访问者的作用基本上相同。

    另外,我’我已经运行了10年的目录(带有搜索功能),而我的链接扫描器(类似于爬网程序)实际上检测到某些类型的受感染网页,并且与Yahoo唯一的区别已经有很多年了’s or Google’我的方法是将网站从列表中删除,这样他们就不会’除非它们固定,否则我的列表中不会存在。

    很高兴看到他们严厉打击,但那专利是垃圾。

    仅供参考,我可以向您显示目前已在Google中编入索引的俄罗斯起源的受感染网站,没有任何警告,它们’已经在Google中被索引了一段时间。它’s花园变种抓取器,重定向到带有伪装成恶意木马的pr0n站点“media viewers”锁定浏览器,除非您单击“YES”接受下载。真讨厌。

  3. 嗨,加布,

    Yep. 那里 seemed to be at least a couple of waves of that happening from 网站 hosted on .cn domains, too.

    抱歉得知您的经历。我知道’可能会非常努力地使用防病毒软件和更新程序,但仍然存在问题。一世’很高兴搜寻引擎正在努力朝这个方向努力。

    我可能应该提到Google的论文, Clickbot.A的剖析。它’很容易将注意力集中在虚假点击方面,而忽略了这些点击来自受到感染的计算机,这些计算机上安装了浏览器帮助程序对象(BHO)。

    It shows another reason for a search engine having an interest in avoiding pages that might download 恶意的 software –导致广泛分布的点击欺诈的一种。

  4. 嗨,比尔,

    感谢您的光临和评论。始终感谢您在漫游器上发布的信息以及网络上的安全性。

    IE和Firefox的Site Advisor插件绝对值得关注安全浏览的任何人使用。

    那里’s somewhat of a chance that the Yahoo patent application may move on to become a granted patent, not so much because of how it identifies 恶意的 code, but rather because of the way that it integrates detection into the crawling, indexing, and display processes that a search engine follows.

    Regardless of whether it does or not, what I liked about the patent application was that it provided me with the opportunity to write about some of the issues surrounding how search engines may deal with 恶意的 code, and with displaying (or not displaying) pages to searchers.

    Should search engines feel responsible when they deliver searchers to pages that contain 恶意的 code? If they do, will searchers feel safer if they know that a search engine is checking pages out before delivering them to those pages?

    With the Google Clickbot A paper, we see search engines should also be concerned about 恶意的 code that enables click fraud, so there’这是一个非常现实的问题,当涉及到可能单击页面的代码时,它们会直接影响他们。

    Interesting regarding the Russian 网站。 You would think that kind of redirect and installation of trojans should be detectable regardless of the language used.

  5. 实际上,俄语的pr0n页是英文的,声称是Pr0nTube,但是它没有’t matter as it’都是可视的,因此访客可以单击任何语言的所需内容。它’s如何通过重定向隐藏病毒,这就是为什么我’确保搜索引擎没有’不要那么容易地拿起它。

    希望雅虎赢了’无法获得这项专利,因为我’我很确定这会在法庭上引起骚动。

  6. One in ten 网站 ( or pages? ) being 恶意的 is hard to believe. It sounds a bit like the Texas Sharpshooter, who would fire a rifle into the side of a barn, then draw a bulls-eye around his bullet holes. That the sample may have been deliberately chosen to provide a dramatic result, in other words.

    假设在那里安全吗’之间的区别’embedded’代码,我想您可能将其称为常规代码?就像您指出的那样,JavaScript和许多其他格式现在很常见。

  7. 嗨,福雷斯特,

    好问题。

    我应该写“URLs” there instead of “sites.” I imagine that some of the 网站 that contain 恶意的 code may be dynamic 网站, and probably have quite a few 网址 attached to them.

    Google的研究描述了wasn’t intended to report on how wide-spread 恶意的 code was on the Web, but rather to see how effective that first filtering step was (the Mapreduce part) –不幸的是,这些结果是由媒体获取的,并报告为好像Web上10%的URL确实包含有害软件。

    例如, 英国广播公司 报告:

    One in 10 web pages scrutinised 通过 search giant Google contained 恶意的 code that could infect a user’s PC.

    如果页面上有常规代码,我认为在专利申请中的Yahoo方法下,’s still “embedded code.” It’不一定有害,或者“malicious” code, but the process flags those pages that have some kind of code upon them, and may then follow up with another visit that might check to see if the code on those pages is 恶意的.

    That may mean that they are checking a lot of websites for 恶意的 code, especially if they are considering javascript and style sheets as being potentially harmful.

  8. 那么,为什么Google禁止除Google以外的其他任何对目录无害的目录’s own purse (effect: less adWords) and they leave those 恶意的 web 网站 alone and active and turning up in the search results?
    如果您问我,这很可笑。显然这不是他们的兴趣所在。如果他们能够识别恶意软件,为什么要发出警告而不是简单地禁止这些站点?唯一的答案可能是,他们毕竟还不确定如何识别软件,其次,这听起来对用户保护是如此神圣,至少在这种用户保护方向上显示或宣布了尝试。
    干杯,
    多丽丝

  9. 我正在查看mt网络日志,并发现来自未知站点的流量(45)。我经常会点击这些链接,查看谁向我发送了流量。 45次访问遥遥领先于其他任何网站。当我到达那里时,该网站尝试下载视频…谢天谢地,我在发生这种情况之前将其关闭…有没有其他人注意到这一点?

  10. “When a search engine delivers you to search results filled with a list of links to web pages, should it warn you about any potentially harmful or 恶意的 code on those pages before you visit one of them?”

    绝对可以。打开网站之前,我们不知道网站中可能存在恶意软件。来自搜索引擎的警告将非常有用。我看到Google将某些网站标记为有害网站。如果它实际上改变了链接/搜索结果的颜色,以便可以很容易地看到它,那就太好了。

  11. 嗨,rcplinks,

    某种警告会很好。我知道McAfee SiteAdvisor插件会在结果旁边放置按钮,以提供一些有关他们对搜索结果页面的感觉的指示。

    我想知道,如果人们可以在Google工具栏中选择在搜索结果中看到类似警告的内容,将会有怎样的反应。

  12. Some very good points made but, how many 网站 carry a warning and don’t contain any potentially harmful or 恶意的 code. What can be done to have an incorrect warning removed, this has to be done correctly as having a site labeled incorrectly would be a nightmare for the owner of the site.

  13. 嗨Opseo,

    Unfortunately, false positives do happen when search engines carry warnings about 网站 and potential 恶意的 code that may exist upon them. Such a warning can be harmful to a site that doesn’不要包含代码或不从事可能危害他人的活动。

    在这种情况下,搜索引擎提供什么资源?

    Google在此页面上说明了网站如何要求对其网站进行人工审核:

    我的网站’s been hacked

    该页面的摘录:

    此标识部分基于StopBadware.org设置的准则。但是,Google使用自己的标准,过程和工具来标识托管或分发恶意软件的站点。在某些情况下,第三方可以将恶意代码添加到合法站点,这将导致我们显示警告消息。如果您认为自己的网站被错误地标识,或者对网站进行了更改,使其不再托管或分发恶意软件,并且保护了您的网站,使其不再容易受到恶意软件的插入的侵害,则可以请求您的网站将被审查。

    请求复审的说明在该页面上。

    Microsoft Live provides information about their 恶意的 code warnings for pages, and instructions on how to stop warnings in this blog post:

    实时搜索网站站长中心秋季更新

    使用网站站长中心中更新的工具,如果您自己的页面或出站链接上存在任何恶意软件问题,您将能够:

    • 快速,轻松地识别受影响的页面。
    • 阅读“帮助”中有关如何解决问题的有用建议。
    • 清理恶意软件后,提交请求,请实时搜索支持团队重新扫描您的网站,并从实时搜索结果网页中的任何受影响的网页中删除恶意软件警告标记。解决这个新的,用户要求的重新包含过程,无需等待下一个重新爬网网站的下一个搜索引擎周期,而是要花几天而不是几周的时间才能解决。

    Yahoo has partnered with McAfee in their approach to identifying 恶意的 code on Web pages. The instructions for having a review of a page that has been determined to be a security risk can be found here:

    我的网站带有警告,为什么?我该怎么办?

评论被关闭。