清华博士用小灯泡骗过红外识别,首次让红外检测性能直降34%
作者:朱小佩
编辑:好困
【新智元导读】众所周知,打印一张图揣身上就能骗过图像识别,那你知道如何才能骗过红外识别么?
在疫情期间,红外行人识别系统被广泛应用。
这得益于热红外识别的系统的两个重要的优势:
1. 对于温度敏感,红外图像的成像利用了物体的热辐射,所以可以反映出物体的温度,这一特性对于人体的非接触式测温具有重要的应用。
2. 红外成像具有一定的「透视」特性,即使人体被一些衣物遮挡,但是热辐射依然可以透过衣物被接收器感知到,所以可以透过遮挡进行成像。
尽管目前红外行人检测系统被广泛使用,但是很少有人去关注该系统的安全隐患。
今年,来自清华大学的研究团队就提出了一项基于小灯泡的物理攻击方法。相关论文发表在AAAI2021会议上(Zhu et al. Fooling Thermal Infrared Pedestrian Detectors in Real World Using Small Bulbs)。相关技术已经申请国家发明专利。
以下就是一个例子,从图中我们看到,持有小灯泡板子的人成功地逃避了检测器的检测,而持有空白板子和不带任何东西的人却被检测器检测到。
研究背景
近年来,对抗样本的研究越来越引起人们的重视。在数字空间中,研究者发现,通过设计特定的噪声,神经网络会以很高的置信度对图像进行了错误的分类,而且这种噪声人眼不易察觉。更进一步地,人们发现对抗样本也可以在现实世界中产生威胁。
例如,一个3D打印的乌龟,当其表面装饰有对抗性的纹理之后,会被神经网络误认为是一个来福枪。对抗样本除了可以干扰分类模型,也可以干扰目标检测模型,例如,一张打印出来的对抗性纸张,可以成功地欺骗目标检测器YOLOv2,使得其检测不到行人。
但目前几乎所有的关于对抗样本的研究都集中在可见光领域。而对于红外领域的研究还处于空白阶段。与可见光的图像(三通道)相比,红外图像只有一个灰度通道,而且红外图像的纹理信息远远少于可见光的信息。
另外,为了实现物理攻击,红外图像不能像可见光图像一样,直接通过激光打印机打印到一张纸上。因此,如何在物理世界中显示特定的图案是一件困难的事情。
研究方法
既然不能用「打印」的方式实现热图像,这时候作者另辟蹊径。可否利用发热物体本身的热图作为基本模块,然后去优化模块的位置。作者于是考察了多种电子元件,包括二极管,电阻等等。
最后发现了一个看似简单却十分好用的器件——小灯泡!因为小灯泡所成的热红外图像十分接近于一个二维高斯函数。
那么这个猜想是否成立呢,作者对小灯泡的红外图像进行了数学分析。
在拍摄了单个灯泡的红外图像之后,尝试用一个二维的高斯函数来建模和拟合。函数拟合后发现,二维高斯函数可以很好地拟合灯泡的红外图像。
有了基本的单元之后,作者就想到,可以构建一个正方形的平面,平面上有多个符合二维高斯分布的「光斑」,这些光斑的位置就可以是优化变量,通过优化,就有可能能找到一个具有对抗特性的图案。
而这个图案,恰好可以与物理世界一一对应,正方形平面对应于一块板子,而数字世界的「光斑」,就是对应于物理世界中小灯泡的成像效果。
此时整个的优化流程就清晰了,首先在数字世界,首先构建一个带有多个「光斑」的patch,将它「贴」到红外数据集中的行人上面,同时作者也在数字世界模拟了物理世界的一些扰动,例如噪声,亮度变化,平移,旋转等等。这使得patch的鲁棒性进一步提高。
优化的目标函数包括检测器的物体置信度输出以及patch光滑度的和。通过反向传播来优化patch上「光斑」的位置,直到找到一个最优的图案。
而当数字世界验证好以后,就可以通过小灯泡将此图案在物理世界中实现,从而达到在物理世界中攻击红外行人检测器的目的。
实验结果
思路明确了,那么实验的效果如何呢?
实验结果表明,数字世界中基于二维高斯函数的patch可以成功地使得YOLOv3检测器的AP (Average Precision) 降低了64.12%。
注意到与之对比的同样大小的随机噪声patch和空白的patch仅使得检测器性能分别降低了25.05%和29.69%。
下面给出了一个具体的例子,可以看到,在数字空间中作者设计的patch可以成功躲避行人检测器。而与之对比的放有blank patch,random noise patch以及什么都不放的人却被检测到了。
接下来作者进行了物理实验。
以下左图是实际制造出来的装有小灯泡的板子,而右图是这个板子的红外热图像与模拟的数字图像的对比。
作者招募了若干名志愿者,在相同的环境下,测试优化后的小灯泡板子对红外行人检测器的对抗效果。对照组包含了使用空白的板子以及什么都不带的情况。
计算结果表明,在物理世界中,优化后的小灯泡板子可以使得YOLOv3检测器的AP降低了34.48%,而同样大小的空白板子仅仅使得检测器的性能下降了14.91%。
以下给出了一组具体的例子,由图中可以看到,在相同的条件下,使用了优化后的小灯泡板子的人没有被YOLOv3检测到,而持有空白板子以及什么都不带的人,被YOLOv3检测到了。
这表明,经过优化后的小灯泡板子可以成功攻破红外行人检测器。
上文中作者都是针对YOLOv3检测模型进行攻击,那么进一步的问题就是,生成的对抗样本能否迁移到其他检测模型上去。
一开始,作者采用了直接进行迁移攻击的方式,结果确不如人意。实验表明,通过YOLOv3模型生成的对抗patch直接迁移攻击,仅使得Cascade RCNN和RetinaNet的AP分别降低了11.60%和25.86%。
这时候作者想到了黑盒攻击的经典办法,模型集成。简而言之,就是集成多种模型来生成对抗样本,这样生成的对抗样本,由于已经综合了不同类型模型的信息,所以具有更好的迁移到未知模型的能力。
作者在实验中,集成了三种经典的目标检测模型,包括YOLOv3,Faster-RCNN和Mask-RCNN。集成之后生成的对抗patch,可以使得Cascade-RCNN和RetinaNet的AP分别降低了35.28%和46.95%。
由此可见,集成攻击的效果相比于直接迁移攻击有了大幅度的提高。
总结和展望
本文首次提出了针对红外行人检测系统进行物理攻击的方法。作者在数字世界中基于二维高斯函数构建对抗性的patch,并在物理世界中用小灯泡实现了对抗性的板子。
经过优化之后的对抗性板子可以成功地攻击YOLOv3模型。作者进一步采用集成攻击的方法,提高了对未知模型的迁移攻击能力。该
研究揭示了目前广泛使用的红外目标检测模型可能存在安全隐患,作者表示下一步的研究工作就是研究防御对抗样本的方法,这对于提升红外行人检测系统的安全性具有重要意义。
作者简介
本文的第一作者是来自于清华大学集成电路学院2018级的直博生朱小佩。他目前的研究方向是计算机视觉、对抗样本和目标检测。
本文的通讯作者是清华大学集成电路学院的王喆垚教授和清华大学计算机系的胡晓林副教授。
参考资料:
https://arxiv.org/abs/2101.08154