行业新闻

AdvDrop:通过丢信息来制造对抗样本

AdvDrop:通过丢信息来制造对抗样本

人有很强的抽象能力和联想力,例如一个有几块积木拼成的乐高玩具,小朋友也能轻易认出其中描述的场景 (人开着小车)。 甚至几个像素,玩家也可以轻易认出这是一个戴着帽子的小人 (超级玛丽奥)。

图1.乐高与像素马里奥

尽管我们期望模型能具有和人相当的能力,但是”抽象能力”对于模型来说显然在当前还是一个相当有挑战性的。但相反的,如果我们从对抗样本的角度来考虑: 存不存在一种可能,如果我们去掉图片中一些对模型来说关键而微小的特征,模型就无法再正确识别这些图片?

什么是对抗样本?

对抗样本一开始由Szegedy等人在2013年定义: 给定一张原始图片x及其标签y,以及模型。对抗样本是指在原图x上加一些刻意制造的微小的扰动,从而让结果图像无法被正确识别(如下图所示)。通常来说,对抗扰动被限制在一定阈值内, 定义为 ,从而保证结果图对人来说与原图几乎不可区分。后续有很多相关工作在当前设定下进一步探索了更多生成对抗样本的攻击方式,以及其他性质,例如迁移性等。

图2. 对抗攻击

对抗样本可能是特征

在对抗样本提出后,有各种各样的防御工作提出,其中尤其是对抗训练最为有效的防御方式之一,但是对抗训练有非常明显的问题是:在稳健性(robustness)和准确率(accuracy)之间始终有一个平衡,即对抗训练提升模型稳健型的同时也导致的模型的准确率下降。为了解释这一现象,Ilyas等人给对抗样本的存在提出了一个假设:对抗样本不是bug,而是一组对人来说不可感知的特征。以人类感知为中心,人类所能察觉的特征就是robust feature,其他的特征则是non-robust。例如图3的狗狗,人类只会注意到其中的耳朵鼻子等显著特征(robust feature)。

图3. 鲁棒特征与非鲁棒特征

Ilyas等人通过一组巧妙的实验说明对抗样本其实是模型从数据中学习到一部分特征,尽管对人来说不可感知,但是对于模型来说是具有预测意义的。受Ilyas 等人 工作启发, 我们试图从一个相反的角度来讨论一个潜在的攻击机制:我们可否去掉一些对人来说微小而不可感知但是对于模型决策又重要的特征,从而形成对抗样本呢?

AdvDrop, 通过丢信息来制造对抗样本

图4. 左侧AdvDrop,信息丢失越来越多,右侧PGD,对抗噪声越来越大

我们在这个工作中提出一个新的机制来生成对抗样本:相反于增加对抗扰动,我们通过扔掉一些不可察觉的图像细节来生成对抗样本。关于两种相反机制的说明如图,当AdvDrop放宽丢掉的信息量的阈值epsilon,产生的对抗样本越来越趋近于一张灰色图片,伴随着图像存储量的降低。 而相反的,PGD生成的对抗样本,随着干扰幅度的增大,越来越接近于无序噪音。

一张更细节的对比图5所示, 从局部区域来看,PGD在图片的局部生成了更多的细节,表现为更丰富的色彩。 而相反的,AdvDrop生成的对抗样本与原图相比失去了一些局部细节,表现在色彩精度的降低。

图5 PGD与AdvDrop局部色彩丰富度

方法

但是我们该如何选择区域去丢图片的信息呢?以及如何保证扔掉的细节对人来说依然是不可感知的呢?

我们提出一种通过优化量化表的方式来选择丢掉信息的区域以及丢掉的信息量。此外, 为了保证丢掉的细节对于人来说依然不可感知,我们先将图像通过离散傅里叶变换从RGB转换到频域,再用量化表去量化一些频域的信息。频域操作相比于RGB的优点是,能更好的分离图像的细节信息(高频信息)和结构信息(低频信息),因此可以保证扔掉的细节对人来说不可感知。

图6 AdvDrop 算法流程

整个流程如图6所示,从优化上,可以被定义为:

其中D 和分别表示的是离散余弦变环及反变换,表示的是一个可微分的量化过程。

通常的量化,可以定义为:

但是因为量化函数不可微分,极大影响优化过程。因此,我们参考了Gong等人的工作,通过引入可控tanh函数来渐进的逼近阶梯式的量化函数,所以:

其斜度可以由 α调整,如下图所示,经过量化函数可微处理,可以更准确的反向传播梯度从而更准确的估计出应该丢失信息的位置及量化的大小。

图7. 不同alpha 下tanh函数对量化函数的逼近层度

结果评估

我们用lpips比较了AdvDrop及PGD在相同信息量变化下的视觉得分: 从对抗样本的不可感知角度来说,在同样的感知得分下,丢信息操作允许操作的信息量要比加干扰允许的更大。从人类视觉上来说,相比于加噪,人眼对于局部平滑其实更为不敏感,从图8可见,随着量化表阈值的增大,AdvDrop生成的对抗样本的局部细节越少,例如蜥蜴鳞片的纹理。

图8. 不同预知下的攻击结果展示

从成功率上来说,无论是在目标攻击还是无目标攻击的设定下, AdvDrop有相当高的成功率来生成一个对抗样本。在目标攻击下,最高可以达到一个99.95%成功率。但相比于传统加噪的对抗攻击生成方式 (例如PGD,BIM) 可以轻易达到100%的成功率来说,依然是强度较弱的。我们觉得AdvDrop强度方面的局限可能来自于两方面:一方面是由于量化这样的方式,另一方面,“减信息”可以操作的空间相比于“加信息”的空间来说要小很多。

我们也评估了AdvDrop在不同防御下的表现。目前主流防御方式主要分为两种,一种是对抗训练 ,另一种是基于去噪的防御方式。 我们发现AdvDrop生成的对抗样本对于现阶段防御方式来说仍是一个挑战,尤其是基于去噪的防御方式。

具体来说,在一定扰动阈值下,基于制造对抗扰动的对抗样本生成方式经过去噪后,图片有很大概率恢复成原始图片。但是对于用AdvDrop生成的 对抗样本来说,其本身就是由于部分特征丢失而导致的错误识别,而去噪操作甚至会加剧这种由于丢失而无法识别的问题。

图9. AdvDrop和PGD在Denoise操作下的细节展示

除了防御的角度,考虑到很多数据都是从网上收集而来,而网络传输中往往存在数据压缩过程,所以通过AdvDrop生成的对抗样本可能“更耐传输”。当然,另一个角度来想,也有可能对于正常图像数据来说,一些正常的数据压缩(例如jpeg)也许不经意间就引入了对抗样本。

讨论及总结

我们提出了一个新的生成对抗样本的机制,讨论了与之前加噪方式相反的一个角度来生成对抗样本。这一类型的对抗样本相比于传统加干扰生成的对抗样本来说,更难以防御。

该工作也展示了模型另一个角度的局限性:对重要细节丢失的稳健性。

在这个工作中,我们仅仅探索了 在频域上丢信息的操作,通过其他丢信息方式来生成对抗样本都是可以值得尝试的未来工作。

Benchmark

AI模型的对抗攻防是一个相互相互博弈的过程,模型的对抗攻击与防御层出不穷,以上提出的攻击算法也仅仅是一种攻击形态。为了更加客观、公平地衡量AI模型的鲁棒性, 清华大学,阿里安全,瑞莱智慧 联合发布的业内最新的基于深度学习模型的对抗攻防基准平台Adversarial Robustness Benchmark( https://ml.cs.tsinghua.edu.cn/adv-bench/#/),此次推出AI对抗安全基准基本上包括了目前主流的AI对抗攻防模型,涵盖了数十种典型的攻防算法。不同算法比测的过程中尽量采用了相同的实验设定和一致的度量标准,从而在最大限度上保证了比较的公平性和客观性。

图10. Adversarial Robustness Benchmark

作者:阿里安全图灵实验室

关闭