所谓的“对抗性攻击”是指有人操纵输入AI系统的数据以迷惑它。例如,有人可能知道,在停车标志的特定位置贴上特定类型的贴纸可以有效地使停车标志对AI系统不可见。或者,黑客可以在 X 光机上安装代码,改变图像数据,从而导致人工智能系统做出不准确的诊断。
“在大多数情况下,你可以对停车标志进行各种改动,并且经过训练以识别停车标志的AI仍然会知道它是一个停车标志。”Tianfu Wu说,他是北卡罗来纳州立大学电气和计算机工程副教授,也是一篇关于这项研究的论文合著者。“但是,如果AI存在漏洞,并且攻击者知道该漏洞,则攻击者可能会利用该漏洞并造成事故。”
Tianfu Wu和他的合作者的新研究侧重于确定这些对抗性漏洞在AI深度神经网络中的普遍性。他们发现这些漏洞比以前想象的要普遍得多。
“更重要的是,我们发现攻击者可以利用这些漏洞来迫使AI将数据解释为他们想要的任何东西。” Wu说,“以停车标志为例,你可以让AI系统认为停车标志是一个邮箱,或者一个限速标志,或者一个绿灯,等等,只需使用稍微不同的贴纸——或者任何漏洞。”
这非常重要,因为如果AI系统对这类攻击的抵抗力不强,人们就不会希望将该系统投入实际使用——尤其是可能影响人类生活的重要应用。
为了测试深度神经网络对这些对抗性攻击的脆弱性,研究人员开发了一款名为QuadAttacK的软件。该软件可用于测试任何深度神经网络的对抗性漏洞。
基本上,如果你有一个训练有素的AI系统,并且你用干净的数据对其进行测试,AI系统的行为将如预测的那样。QuadAttacK 观察这些操作,并了解 AI 如何做出与数据相关的决策。这使得 QuadAttacK 能够确定如何操纵数据来欺骗 AI。
然后,QuadAttacK 开始向 AI 系统发送操纵数据,以查看 AI 如何响应。如果 QuadAttacK 发现了一个漏洞,它可以快速让 AI 看到 QuadAttacK 希望它看到的任何内容。
在概念验证测试中,研究人员使用 QuadAttacK 测试了四个深度神经网络:两个卷积神经网络(ResNet-50 和 DenseNet-121)和两个视觉转换器(ViT-B 和 DEiT-S)。之所以选择这四个网络,是因为它们在全球人工智能系统中被广泛使用。
“我们惊讶地发现,这四个网络都非常容易受到对抗性攻击,”Wu说,“我们特别惊讶的是,我们可以在多大程度上微调攻击,让网络看到我们希望他们看到的东西。”
研究团队已经公开了QuadAttacK,以便研究社区可以自己使用它来测试神经网络的漏洞。“现在我们可以更好地识别这些漏洞,下一步是找到最小化这些漏洞的方法,” Wu说,“我们已经有一些潜在的解决方案,但这项工作的结果还有待检验中。”