央行《人工智能算法金融应用评价规范》之AI安全攻击及防范解读
最近,央行发布了《人工智能算法金融应用评价规范》(以下简称《规范》),从安全性、可解释性、精准性,性能等四大方面对金融业所应用的AI算法提出了评价要求。AI安全是指AI模型本身及数据相关的安全议题,本文将围绕常见的AI安全攻击及其防范技术进行评述,帮助读者更好地理解央行《规范》。
01. 窃取攻击及其防范
窃取攻击是什么
《规范》所指的窃取攻击包含训练数据窃取和模型窃取两方面,前者是指训练数据在运输、存储过程中被窃取或篡改,同时也包括了敏感数据的隐私窃取;后者是指模型在传输、存储和训练过程中被窃取或篡改。在文献中,恶意攻击者通过多次侦测AI模型的输出,进而反解或者重构出原模型,也算是一种(模型)窃取攻击;但在《规范》里,这种攻击方式被归类为逆向攻击(见下文)。
窃取攻击防范
窃取攻击的防范主要依赖于数据和模型在传输、存储和训练各阶段的安全管理措施,在算法层面上,用户的隐私数据保护可以借助差分隐私加噪技术,模型的防窃取攻击可以采用模型水印技术。
差分隐私加噪
差分隐私保证恶意攻击者所能获取的个人数据,几乎和他们从没有此人记录的数据集中所能获取的,相差无几。恶意攻击者不能通过差分攻击得到用户的隐私信息。常见的差分隐私加噪的方法包括拉普拉斯法,高斯法,和指数法。
图1 差分隐私加噪
模型水印
神经网络可以采用加水印的办法来实现对模型的保护,防止模型被窃取。该方法的实际操作包括模型水印生成和水印验证[1]。模型水印生成的方法是设计水印样本(水印样本具有设计者自定义的独特标签,如图2所示,带有水印“TEST”字样的汽车图片被打上“airplane”的标签——相当于是设计者的暗号),并将其加入到训练集中进行训练。在使用模型时,可以调用水印验证算法,验证模型是不是已经被窃取;基于水印样本,正确的模型会预测出预设的水印标签,实现对模型的认证。
图2 算法加水印及水印验证示例 [1]
02. 药饵攻击及其防范
药饵攻击
药饵攻击在文献中又被称作数据投毒攻击(Poisoned Attack),指的是恶意攻击者在原始训练数据中掺杂药饵样本(或有毒样本),破坏模型的性能。药饵攻击按攻击结果来分,可以分成有目标攻击和无目标攻击,其中有目标攻击使得模型在正常测试下表现正常,但在特定的测试样本下的预测严重错误;无目标攻击则是使模型的整体性能下降,其在正常测试下也会出现较大错误率。
图3 药饵攻击示意图 [2]
药饵攻击防范
药饵攻击的防范可以分为数据和模型两个层面。数据层面的防范主要是采用异常值检测的办法,去把训练数据中的药饵数据过滤掉;模型层面的防范包括集成分析的办法。
异常值检测
药饵数据是人为生成的,通过异常值检测算法就有可能提前发现和过滤掉它们。异常值检测算法有助于检测出明显的药饵攻击样本,常见的异常值检测的方法有Numeric Outliers,Z-score,DBSCAN聚类,孤立森林等。除了常见的异常值检测,还要关注最新的药饵攻击算法,及时更新应对算法库。
集成分析方法
集成分析方法可以训练多个模型,不同的模型采用了不同的数据集,一般而言能够减轻算法对药饵数据的敏感度。
03. 闪避攻击及其防范
闪避攻击
闪避攻击(Evasion Attack)[3-4]的主要方式是对抗攻击(Adversarial Attack),指的是在模型预测阶段,恶意攻击者设计特别对抗样本,使模型对其预测的结果出现明显错误。图4展示了对抗攻击的的例子,最左的熊猫样本被加上了中图的特制噪声,生成了最右的对抗样本,实验发现模型将其预测成了长臂猿(gibbon)。从人的常识角度,对抗样本与原样本差距极小,然而AI模型却不能有效识别。对抗样本从形式上可以分成数字对抗样本和物理对抗样本,对应着一般的对抗攻击和物理攻击。
图4 对抗样本示例
对抗样本生成
对抗样本生成算法是指生成对抗样本的算法,一般而言,有白盒攻击算法和黑盒攻击算法之分。白盒攻击是指攻击者可以获取模型的架构以及参数,因此可以特殊设计攻击样本;黑盒攻击是指攻击者不能获取模型的信息,一般而言,黑盒攻击是通过在另一个模型的训练结果,迁移到待攻击模型而得到攻击样本的。图5展示了典型的对抗样本生成算法。
表1 典型对抗样本生成算法 [3]
物理攻击
文献 [6]指出,对抗攻击样本不仅仅只是存在于数字世界,同样存在于物理世界。他们把数字世界的对抗样本打印出来,发现模型同样不能正确地识别,因此称为物理对抗样本。基于物理对抗样本的攻击就是物理攻击,其尤其对人脸识别、自动驾驶、票据识别造成巨大的安全威胁。针对票据识别、证件识别OCR系统的攻击参见 [7-8]。
图5 物理对抗样本 [6]
金融数据闪避攻击
表1中的对抗样本生成算法基本上都是针对图像数据,在金融领域更多的数据是结构化的宽表型数据(Tabular Data),研究者发现针对金融宽表型数据的对抗样本生成算法需要满足以下三个条件:一是对抗样本与原样本的距离应该很小(minimize perturbation),因此它们不容易被直观识别;二是对抗样本改变原模型预测结果的概率应该足够大,因此具备实际破坏性;三是生成算法应该满足可编辑限制(editability constraints),例如生成的对抗样本不能把正值变量改成了负值,时序样本的对抗样本也不能改变已经发生过的数据。
表2 针对申请评分卡模型的闪避攻击 [10]
较图像数据而言,金融宽表型数据的对抗样本生成过程更不容易[9-11]。尽管如此,针对金融AI模型的闪避攻击仍然需要严加防范,事实上,研究者[10-11]证实了评分卡模型可能被实际的对抗样本攻击,研究者[10]发现攻击者只需要让自己的活期存款账户不存钱(对应表格中的状态A14),就能把模型的风险评分从0.275(活期存款账户存0-200马克,对应表格中的状态A12)降至0.127(见表2)。这警示了金融AI模型面临着被闪避攻击的风险。
闪避攻击防范
对抗攻击的防御方法有修改训练过程或输入数据,修改模型网络结构,使用附加网络等手段[3-5]。修改训练过程的方法主要是对抗训练,是指将对抗样本加入到训练样本中去,达到数据增广的效果;修改输入数据的方法包括数据压缩——将原始数据的维度进行压缩,也包括对原始数据注入高斯噪声。修改模型网络结构包括使用深度压缩网络,在原始网络之前,加入自编码器;或者使用梯度正则化和模型蒸馏。使用附加网络的典型代表是基于对抗生成网络(Generative Adversarial Networks,GAN)进行训练。
04. 模仿攻击及其防范
基于模仿学习的攻击行为在机器人领域有较为广泛的研究,近年来,该技术也被用来生成更有效的对抗样本。
模仿攻击
在图6中,研究者[12]参考生成对抗网络(Generative Adversarial Network,GAN)的思想,设计一个生成网络G用以生成新样本,和一个模仿模型D用以模仿原始模型T的输出行为;在联合训练G和D之后,可以生成比一般黑盒攻击更具破坏力的对抗样本。这种攻击方式就是模仿攻击(Adversarial Imitation Attack)。该攻击方式相较黑盒攻击而言只需要更少的训练样本,同时可以获得接近白盒攻击的破坏效果。
图6 模仿攻击示例 [12]
模仿攻击防范
上述模仿攻击可以理解成一种特殊的闪避攻击行为,前文所述的对抗攻击防范方法也被用于模仿攻击的防范。
05.逆向攻击及其防范
逆向攻击
对于对外提供AI模型服务的供应商,恶意攻击者可以通过多次测试,逆求解出模型的参数。例如信用卡申请评分场景,攻击者经过多次的信息输入和结果返回之后,可以重建出LR模型的参数,进而修改信息输入,骗取申请的通过。
图7 逆向攻击示例 [13]
逆向攻击防范
为了有效防范逆向攻击,金融机构应该对侦测频率进行限制。另一方面,恶意攻击者持续开发侦测频率更低的攻击方法,防守方(金融机构)也相应需要部署更强护盾。一般而言,仅仅输出模型结果即可,不要输出相应的预测概率。同时可以采用隐私聚合教师模型(Private Aggregation of Teacher Ensembles, PATE)在算法层面上增强防御能力。
图8 隐私聚合教师模型 [14]
在图8所示的PATE示意图中,敏感的隐私数据被切分成了 n 份,分别训练出 n 个教师模型,它们并不直接用于模型预测,而是训练出一个学生模型。PATE 可以显著防范逆向攻击的发生。
供应链攻击及其防范
AI的供应链是指在开发模型的过程中涉及到的迁移学习模型(例如自然语言处理常常用到的BERT,GPT-3等预训练模型),它们是第三方开发者在特定的数据集上训练出来的模型,这种模型是可能存在安全风险的。为了有效防范,加载供应链模型时应该明确来源是否可信,供应链模型应该符合相应的安全规范。
06.后门攻击及其防范
后门攻击
后门攻击(Backdoor Attack)是指恶意攻击者可能在模型开发的过程中留有后门,其会在训练数据上表现很正常,但在特定的后门数据上使模型的预测出现错误。后门攻击可以看作是一种特殊的药饵攻击。在下面的图9中,原始样本是一个“7”字,中间和右边的样本被恶意攻击者植入了一个亮点和一个特殊图案(见右下角),成为了后门数据;图10中,干净的样本是一个“STOP”标识,接下来的三幅后门样本分别被植入了一个黄色方块、炸弹图案和花朵图案。恶意攻击者会篡改后门样本的标签,例如将带后门的“STOP”标识赋予“限速45”的标签;基于这种带后门样本的训练数据会导致训练模型在后门样本下的预测结果存在危险性[15]。
图9 后门样本示例一 [15]
图10 后门样本示例二 [15]
后门攻击防范
后门攻击的防范可以在数据处理的过程中进行后门数据过滤,同时,可以在开发算法时,采用模型裁剪等技术。
图11 索信达AI安全组件矩阵图
随着金融业数字化转型进程的深入,AI技术逐步渗透到金融机构的各条业务线中;如何有效地防范层出不穷的AI安全攻击威胁,是业界奋力研究的重要议题。索信达作为领先的大数据及人工智能解决方案供应商,正在积极布局安全、可解释的AI前沿研究和产品开发,助力金融机构高效安全地实现数字化转型。
索信达数据科学家
中科院物理学博士,中科大博士后。目前任职于索信达控股(股票代码:03680.HK)AI创新中心,承担知识图谱技术研究及解决方案开发,AI安全攻防解决方案研发,金融业模型工厂产品开发。
索信达AI创新中心致力于研究前沿科技,并与商业结合,将人工智能技术赋能金融业务,全面服务金融客户。
参考文献:
[1] Jialong Zhang, Zhongshu Gu, Jiyong Jang, et al. Protecting Intellectual Property of Deep Neural Networks with Watermarking, ASIACCS’18.
[2]Matthew Jagielski, Alina Oprea, Battista Biggio , et al. Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning, arXiv:1804.00308.
[3]Naveed Akhtar and Ajmal Mian, Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey, arXiv:1801.00553.
[4]Kui Ren, Tianhang Zheng, Zhan Qin, et al. Adversarial Attacks and Defenses in Deep Learning, Engineering 6 (2020) 346–360.
[5]Shixiang Gu, Luca Rigazio, Towards Deep Neural Network Architectures Robust to Adversarial Examples, ICLR 2015, arXiv: 1412.5068.
[6]Alexey Kurakin, Ian J. Goodfellow, Samy Bengio, Adversarial examples in the physical world, ICLR 2017, arXiv:1607.02533.
[7]Lu Chen, Jiao Sun, Wei Xu, FAWA: Fast Adversarial Watermark Attack on
Optical Character Recognition (OCR) Systems, arXiv:2012.08096.
[8]Lu Chen, Wei Xu, Attacking Optical Character Recognition (OCR) Systems
with Adversarial Watermarks, arXiv:2002.03095.
[9]Suproteem K. Sarkar, Kojin Oshiba, Daniel Giebisch, et al. Robust Classification of Financial Risk, arXiv:1811.11079.
[10]Francesco Cartella1 , Orlando Anunciacao, Yuki Funabiki, et al. Adversarial Attacks for Tabular Data: Application to Fraud Detection and Imbalanced Data, arXiv: 2101.08030.
[11]Salah Ghamizi, Maxime Cordy, Martin Gubri, et al. Search-Based Adversarial Testing and Improvement of Constrained Credit Scoring Systems, ESEC/FSE 2020, November 2020, Pages 1089–1100.
[12]Mingyi Zhou, Jing Wu, Yipeng Liu, et al. Adversarial Imitation Attack, arXiv:2003.12760.
[13]Florian Tramer, Fan Zhang, Ari Juels, et al. Stealing Machine Learning Models via Prediction APIs, 25th USENIX Security Symposium 601.
[14]Nicolas Papernot, Shuang Song, Ilya Mironov, et al. Scalable Private Learning with PATE, ICLR 2018, arXiv:1802.08908.
[15]Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg, BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, arXiv:1708.06733.