人工智能远远不止炒作 能帮助网络安全防御
如果有参加4月份在旧金山举行的RSA安全会议,经过巨大的展厅,你可以很容易地感受到解决问题的新印象——数字防御。在标有品牌的T恤和水瓶中,每个展台都兜售软件和硬件,承诺无法越过的防御和安心。有什么新的灵丹妙药呢?人工智能!销售宣传总是如此,声称可以立即发现网络上的任何恶意软件,并在受影响之前检测入侵。
对人工智能能够提供什么的美好看法并非完全错误。但是,下一代技术的实际做法比营销人员想要承认的更为混乱和增值。幸运的是,研究人员在公司和学术界开发新的防御系统,在很大程度上都同意潜在的利益和挑战。首先是直接获得一些术语。
“实际上,我认为并不没有很多公司都在使用人工智能。它们真的只是在培训机器学习。”网络安全防御公司Malwarebytes的首席执行官Marcin Kleczynski表示,该公司在RSA推广了自己的机器学习威胁检测软件,“称之为AI,在某种程度上是一种误导,这让客户感到困惑。”
机器的崛起
安全公司部署的机器学习算法通常训练大型数据集,以“学习”网络上需要注意的事项以及如何对不同情况作出反应。与人工智能系统不同,大多数安全应用程序无法在没有新的训练数据的情况下推断出新的结论。
然而,机器学习本身就很强大,而且这种方法非常适合病毒防御和恶意软件扫描。几十年来,AV一直是基于签名的,这意味着安全公司会识别特定的恶意程序,为每个程序提取一种独特的指纹,然后监控客户设备以确保不会出现这些签名。
基于机器学习的恶意软件扫描以类似的方式工作,算法训练大量恶意程序目录以了解要查找的内容。但是ML方法具有灵活性的额外好处,因为扫描工具已经学会了寻找恶意软件的特征而不是特定的签名。攻击者可以通过对他们的恶意工具进行轻微改动来阻止传统的AV,这些恶意工具会丢掉签名,基于机器学习的扫描程序,在这一点上几乎所有的安全知名人士都提供了更多功能。这仍然需要定期更新培训数据,但它们更全面的扫描使黑客的工作更难。
“恶意软件的性质不断发展,因此为特定恶意软件系列撰写签名的人面临着巨大的挑战。”机器学习安全公司Endgame的数据科学家Phil Roth表示,该公司拥有自己的ML驱动的恶意软件扫描程序Windows系统。使用基于ML的方法,“你训练的模型肯定需要反映最新的东西,但我们可以稍微慢一点。攻击者通常建立旧框架或使用已经存在的代码,因为如果你从头开始编写恶意软件,那么对于可能没有大量回馈的攻击来说需要付出很多努力。所以你可以从训练集中存在的所有技术中学习,然后在攻击者拿出稍微新一点东西的时候,就会识别模式。”
同样,机器学习已成为打击垃圾邮件和网络钓鱼的必不可少的工具。领导谷歌反滥用研究团队的Elie Bursztein指出,自18年前推出以来,Gmail一直使用机器学习技术来过滤电子邮件。但随着攻击策略的发展和网络钓鱼方案变得越来越有严重,Gmail和其他谷歌服务需要适应那些专门知道如何攻击的黑客。无论攻击者是否设置虚假(但令人相信的)Google Docs链接或污染垃圾邮件过滤器,了解哪些邮件是恶意的,谷歌和其他大型服务提供商越来越需要依靠自动化和机器学习来跟上。
因此,谷歌几乎在其所有服务中都找到了机器学习的应用程序,特别是通过称为深度学习的ML技术,它允许算法在训练和发展时进行更多的独立调整和自我调节。 “在我们处于这样一个世界之前,你拥有的数据越多,你所拥有的问题就越多。”Bursztein说,“现在通过深入学习,数据越多越好。我们在Play Store中防止暴力图像,扫描评论,检测网络钓鱼和恶意软件。我们使用它来检测欺诈性付款,我们用它来保护我们的云,并检测受感染的计算机,它无处不在。”
从本质上讲,机器学习在安全方面的最大优势在于培训,以了解系统的“基线”或“正常”,然后标记任何不寻常的人工审查。这个概念适用于各种ML辅助威胁检测,但研究人员表示,机器学习与人类相互作用是这些技术的关键优势。 2016年,IBM估计一个普通的组织每天处理超过200,000个安全事件。
因此,机器学习最常见的作用是附加的。它充当哨兵,而不是万灵药。
“就像有一个机器学习助手在坐在分析师旁边看到了这一点,”IBM Security的安全运营和响应副总裁兼首席技术官Koos Lodewijkx说。 IBM的团队越来越倾向于使用其Watson计算平台来完成这些“知识整合”任务和其他领域的威胁检测。 “今天安全运营中心正在进行的大量工作是例行的或重复的,那么如果我们可以使用机器学习自动化一些工作,或者只是让分析师更容易呢?” Lodewijkx说。
最佳防御
尽管许多机器学习工具已经在提供防御方面显示出有希望的结果,但研究人员几乎一致地警告攻击者自己也开始采用机器学习技术的方式。更多这类攻击即将发生。已经出现了一些例子,比如使用机器视觉击败Captchas的黑客工具。
目前对机器学习的另一个威胁是数据中毒。如果攻击者可以弄清楚算法是如何设置的,或者是从哪里获取训练数据,他们就可以找出引入误导性数据的方法,这些数据构建了关于哪些内容或流量是合法的还是恶意的反向叙述。例如,攻击者可能会在数千个帐户上运行活动,将恶意邮件或评论标记为“非垃圾邮件”,以试图瞒过算法的评判。
在另一个例子中,来自云安全公司Cyxtera的研究人员构建了一个基于机器学习的网络钓鱼攻击生成器,该生成器训练了超过1亿个特别有效的历史攻击,以优化并自动生成有效的诈骗链接和电子邮件。 “网络钓鱼攻击者平均将在0.3%的时间内绕过基于AI的检测系统,但通过使用AI,攻击者需要超过15%的时间绕过系统。”Cyxtera副总裁Alejandro Correa Bahnsen说,“我们希望尽可能接近实际的攻击者如何构建它。所有数据都是攻击者可用的数据。所有的库都是开源的。”
研究人员指出,这就是为什么建立ML系统以鼓励“让人类置身循环中”的重要性,因此系统不是唯一的自动仲裁者。研究机器学习安全的意大利卡利亚里大学助理教授Battista Biggio说,ML系统“应该可以选择‘我以前没见过’,并向人们寻求帮助。” “这里没有真正的情报—数据的推断,数据的相关性。所以人们应该意识到这种技术有局限性。”
为此,研究界已经努力了解如何减少ML系统中的盲点,以便能够加强对这些弱点的攻击。在RSA,来自Endgame的研究人员发布了一个名为EMBER的开源威胁数据培训集,希望他们能够在竞争公司中树立一个榜样,专注于安全ML的协作。 “有充分的理由认为安全行业没有那么多的开放数据集。”Endgame的Roth说, “这些类型的数据可能具有个人识别信息,或者可能向攻击者提供有关公司网络架构的信息。清理EMBER数据集需要做大量工作,但我希望能够激发更多的研究并让维护者共同努力。”
这种合作可能是必要的,以便使用机器学习技术本身保持领先于攻击者。尽管是压倒性的炒作,网络安全中的机器学习仍然存在真正的希望。挑战在于维持这种期望。