Science|让机器学习值得信赖

2021年8月13日,Science的一篇文章,阐述了机器学习在使用中的多种潜在风险,以及让机器学习值得信赖的一些方法。

以下是全文内容。

机器学习(ML)在过去十年中取得了巨大的进步,并继续在图像、语音和文本识别等非凡的任务上,获得令人印象深刻的人类级水平的表现。它正日益为许多高风险的应用领域提供动力,如自动驾驶汽车、自动执行任务的无人机、入侵检测、医学图像分类和金融预测。然而,ML必须取得一些进展,才能被放心地部署在直接影响(训练和操作时)人类的领域。在这种情况下,保护性、隐私、安全性和公平性都是必不可少的考虑因素。

一个值得信赖的ML模型的开发,必须建立在对几种类型的敌对性攻击的保护之上(见图)。一个ML模型需要训练数据集,训练数据集可以通过插入、修改或移除训练样本而被"投毒",这样的目的是影响模型的决策边界(decision boundary),为对手的意图服务。当模型从众包数据中学习,或从运行中收到的输入中学习时,就会发生中毒现象,这两种情况都容易被篡改攻击。

通过特意制造的输入(称为敌意案例),敌意操纵(Adversarially manipulated)的输入可以逃避ML模型。例如,在自动驾驶汽车中,一个控制模型可能依靠路标识别来进行导航。通过在停车标志上贴一个小贴纸,就可以逃避模型,将停车标志误认为是一个让行标志或"限速"标志,而人类司机会简单地忽略视觉上不重要的贴纸,在停车标志上踩刹车。

图 机器学习的敌对性威胁

机器学习模型很容易受到降低模型机密性和模型完整性或泄露私人信息的攻击

攻击也可以滥用模型预测界面的输入-输出互动,来窃取ML模型本身。通过提供一批输入(例如,公开的交通标志图像),并为每个输入获得预测,一个模型就可以成为一个标记的数据库,使对手能够训练一个功能等同于该模型的代理模型。这种攻击ML模型构成更大的风险,尤其是从知识产权和军事或国家安全情报等高风险数据中学习时。

当模型被训练用于对隐私敏感的数据进行预测分析时,例如病人的临床数据和银行客户的交易,隐私是最重要的。出于隐私动机的攻击,可以通过与已部署的模型的简单互动,来揭示训练数据中包含的敏感信息。这种攻击的根本原因是ML模型倾向于"记忆"其训练数据的附属信息,并在预测时无意中泄露了对训练数据有贡献的个人的识别细节。在一种常见的策略--成员推理(Membership Inference)中,敌对者能够利用模型对训练数据集的成员和非成员的反应差异。

为了应对这些对于ML模型的威胁,一些有希望的对策的探索正在进行。中毒检测和敌对性输入方面的研究已经取得了进展,限制了敌对者通过与模型的互动可能学到的东西,进而限制模型窃取或成员推理攻击的程度。一个有希望的例子是对隐私的正式的严格的界定。差分隐私(differential privacy)的概念向参与数据集的个人承诺,无论你的记录是否属于一个模型的训练数据集,敌对者通过与模型的互动所了解到的关于你的信息基本上是一样的。

除了技术上的补救措施,从ML攻防军备竞赛中获得的教训提供了机会,激励更广泛的努力,使ML在社会需求方面真正值得信赖。议题包括模型在做决定时是如何"思考"的(透明度),以及当ML模型被训练来解决高风险的推理任务时的公平性(如果这些决定是由人类做出的,则存在偏见)。想要在实现可信赖的ML方面取得有意义的进展,就需要了解传统的安全和隐私要求与更广泛的透明度、公平性和道德问题之间的关系,有时甚至是紧张关系,当ML被用来解决人类的需求时。

在有影响的ML应用中,有几个令人担忧的偏见事例被记录下来,如种族和性别的错误识别,错误地将深色皮肤的脸认为是更高的犯罪可能性,在简历筛选中不成比例地偏向男性申请人,以及在医疗试验中不偏向黑人病人。这些有害的后果要求ML模型的开发者超越技术解决方案,赢得受这些有害后果影响的人类主体的信任。

在研究方面,特别是对于ML的安全和隐私,上述的防御性对策已经加强了对于敌对环境中ML模型的盲点的理解。在公平和道德方面,有足够多的证据证明ML的缺陷,特别是在训练数据集的代表性不足的主题上。因此,通过以人为本和包容的方式,来阐述ML的公平和道德的含义,仍有更多的工作要做。关于ML中偏见的根源的一个误解是将偏见归于数据和数据本身。数据收集、采样和注释在造成历史偏见方面起着关键作用,但在数据处理管道中,有多个环节可以体现出偏见。从数据采样到特征提取,从训练期间的聚合到测试期间的评估方法和指标,偏见问题体现在整个ML数据处理管道中。

目前,缺乏广泛接受的敌对性稳健性(adversarial robustness)和隐私保护性ML的定义和表述(除了差分隐私,它在形式上很有吸引力,但没有广泛部署)。攻击、防御和衡量标准的概念,缺乏从一个领域到另一个领域的可转移性,也是阻碍实现可信的ML的一个紧迫问题。例如,前面说明的大多数ML规避和成员推理攻击主要是在图像分类(自主车辆的路标检测)、物体检测(从有多个物体的客厅照片中识别一朵花)、语音处理(语音助手)和自然语言处理(机器翻译)等应用上。在视觉、语音和文本领域背景下(往往是自然的对抗性领域)提出的威胁和对策很难相互转化,如网络入侵检测和金融欺诈检测。

另一个重要的考虑因素是一些可信度属性之间固有的矛盾。例如,透明度和隐私往往是冲突的,因为如果一个模型是在隐私敏感的数据上训练的,而在生产中以最高的透明度为目标,将不可避免地导致数据主体的隐私敏感细节的泄露。因此,需要对为了获得隐私保护而牺牲透明度的程度做出选择。反之亦然,并且需要向系统购买者和用户明确说明这种选择。一般来说,隐私的问题颇受关注,因为如果不执行隐私保护的话,会有法律上的影响(例如,在美国的健康保险便携性和责任法案方面的病人隐私)。另外,隐私和公平可能并不总是能够协同的。例如,尽管保护隐私的ML(如差分隐私)对单个训练实例的无差别性提供了有限度的保证,但就效用而言,研究表明,训练数据中的少数群体(例如,基于种族、性别或性)往往会受到模型输出的负面影响。

广义上讲,科学界需要退一步,将ML中的稳健性、隐私性、透明度、公平性和道德规范与人类的规范统一起来。要做到这一点,就需要制定和接受更明确的稳健性和公平性的规范。在研究工作中,对抗性稳健性、公平性和透明度的有限表述必须被广泛适用的表述所取代,就像差异性隐私所提供的那样。在政策制定方面,需要有具体的步骤来建立监管框架,阐明关于数据集的偏见和道德规范的可操作的问责措施(包括多样性准则)、训练方法(如偏见意识训练)和关于输入的决定(如用解释来增加模型的决定)。希望这些监管框架最终会演变成由立法支持的ML治理模式,从而在未来形成负责任的ML系统。

最关键的是,迫切需要来自不同科学界的见解,来考虑这样的社会规范:什么能使用户有信心使用ML进行高风险决策,如自动驾驶汽车的乘客、接受机器人投资建议的银行客户,以及信任在线诊断界面的病人。需要制定政策,来管理在这种高风险应用中ML的安全性和公平性。同样重要的是,对抗性稳健性和模型准确性、隐私和透明度、公平和隐私之间的基本紧张关系,要求对可信赖的ML进行更严格的和基于社会的推理。幸运的是,在采用ML的这个时刻,在ML被普遍部署并变得无法管理之前,我们仍有一个重要的机会窗口可以解决其盲点。

参考资料
https://science.sciencemag.org/content/373/6556/743
(0)

相关推荐