QEBA:基于类边界查询访问的黑盒攻击

详细信息如下:
  • 论文链接:https://arxiv.org/abs/2005.14137

  • 项目链接:https://github.com/AI-secure/QEBA

导言:
该论文是关于边界查询的黑盒攻击的研究,出自于伊利诺伊大学和蚂蚁金融并发表CVPR2020。要知道当前白盒攻击的效果是非常不错,但是攻击条件很苛刻,攻击者需要能够完全访问深度学习模型,所以黑盒攻击在实践中更为现实。
在该论文中,作者提出了一种仅基于模型最终预测标签的高效查询边界黑盒攻击(QEBA),并从理论上证明了以前基于边界的攻击在整个梯度空间上的梯度估计在查询数方面是无效的,进一步作者给出了基于降维的梯度估计的最优性分析。实验方面也很出彩,不仅在线下的实验中证明了论文中方法的有效性,而且在线上API的攻击中也获得了不错的效果。

      01      

预备知识
已知分类器模型为,输入样本为,标签的预测向量为。在基于边界的黑盒攻击中,攻击者只能通过一系列更新样本的查询访问模型,得到的预测标签,其中表示的是第类的预测得分。模型的参数和预测分数向量是无法访问的。目标图像的对应的干净标签为。在恶意标签中选择属于该类的初始图像。
在攻击的过程中,目标图像向的方向演变,并且一直保持模型的分类标签为。攻击者的目标是找目标图像的对抗样本并且使得,而且满足对抗样本和干净样本之间的距离尽可能地小。

      02      

论文方法
如下图所示为该论文方法的实例讲解。攻击的目标是去生成一个看似像猫的图片但实则经模型分类后标签为鱼的对抗样本。首先,攻击者需要初始化一个对抗样本图像,然后通过连续变换的方法去找到猫和鱼之间分类面的决策边界点,接着涉及到论文中的核心,即在一个低维子空间中通过蒙特卡罗模拟去估计对抗扰动的梯度 最后将子空间的梯度映射回到最初的图像空间中能够保证映射回来的梯度有指向目标图像的分量。
作者首先定义了一个对抗预测分数和指示函数:
论文中作者为了数学使用的方便,和简写成了和。对于攻击者而言,可以到得到的取值,但是获取不到模型预测向量的取值。如果时,说明攻击成功,反之。这里需要注意的是,论文中作者介绍的是有目标的黑盒攻击,其实该方法也可以适用于白盒攻击,则此时只需要改动对抗预测分数
此时的表示的干净样本的预测分量。 
QEBA框架介绍
假定表示的是通过迭代算法第步生成的对抗样本。假定在分类决策点处,则此时可以通过来估计对抗攻击的梯度,具体的公式表示为:
其中表示的是个从单位球中的随机采样点。是一个采样的加权常数。如下图所示为对抗梯度估计计算的过程,这里的核心也是论文中创新点在于如何去针对在空间进行采样。
令是空间上的单位正交基,此时则有。令由基向量张成,它为的维子空间,这里有一个隐含条件是。作者的目的就是想在这个子空间 进行采样,而不是在原始图像空间中进行采样
已知是空间单位球的采样点,然后通过仿射变换映射回到原始的图像空间中。详细的梯度估计过程如下算法所示。当子空间的维度与图像空间一致的时候,该算法依然成立。
当估计出对抗梯度之后,则可以生成下一步的对抗样本其中为第步迭代的步长,沿着对抗梯度的方向即可使得对抗类的预测得分增加。显然是在边界之外,已经被误分类。此时将对抗样本朝着干净的目标样本连续变化,直到投影到决策面上,具体公式如下所示其中投影是通过的二元搜索得到的。

子空间类型

在该论文中,作者引入了三种子空间,并介绍了如何将子空间中的向量投影到图像空间中。
QEBA-S
基于对输入图像梯度具有局部相似性的观察。大部分梯度位于由双线性插值操作跨越的低维子空间中。为了对图像的随机扰动进行采样,作者首先对的低维进行随机扰动进行采样,其中是降维因子的超参数。然后通过使用双线性插值将其映射回原始图像空间,即
其中表示的是单位向量,在第处为,其它处为0。
QEBA-F
该方法是通过离散余弦变换从低频子空间中对扰动进行采样。图像的低频子空间包含大多数关键信息,包括梯度信息;离散余弦变换的具体公式表示为:
离散余弦变换的逆变换是从频域到图像域的映射:
其中当时,,否则。在该论文中作者的频域空间维度的取值为,故有
其中为降维因子超参数。
QEBA-I
主成分分析是一种标准的降维方法,在高维空间中给定一组数据点,的目标是寻找一个低维子空间,从而使数据点在子空间上的投影最大化。作者利用优化模型梯度矩阵的子空间。由于待攻击模型的参数无法访问,作者使用一个参考模型来计算一组图像梯度;然后进行主成分分析以提取前个主要成分,并将这个向量张成维子空间。考虑到计算内存和时间的代价,作者采用了随机方法。

      03      

QEBA理论分析
本节作者从理论上分析了降维如何帮助进行梯度估计,而且作者还证明了通过从子空间而不是原始空间采样,梯度估计界更紧。表征子空间的空间压缩比率的计算公式为:
则有如下定理计算和估计的余弦值:令在点附近有梯度,并且采样点相互正交,且有。则和的余弦值的界可以表示为:
其中是维子空间的相关系数,取值范围为。进一步求极限可知
在实验中当,当压缩率时,则和的余弦值增加了。

      04      

实验结果
为了评估所提出方法的有效性,作者首先在图(a)和图(c)中分别显示了ImageNet和CelebA在使用不同数量的查询进行攻击过程中的平均。可以发现论文中三种提出的高效查询方法的性能都显著优于。在图(b)和图(d)中提供了攻击成功率收敛情况,可以发现、和比更快速地快速收敛到更高的攻击成功率。
在下表中作者以不同的要求作为阈值,显示了给定不同查询数的攻击成功率,可以发现、和比地效率查询更高,攻击效果更好。
下图表示的是攻击线上亚马逊的定性可视化图像,源图像是一只猫,目标图像是同一个女人。方法从原始高维空间中采样可以得到在人脸背面显示两个猫耳形状,而论文中的方法生成的对抗扰动更平滑,也验证了论文中所提出方法的优越性。

END

(0)

相关推荐