Nat Mach Intell|美国和欧洲如何监管医学领域的人工智能

2021年9月10日,Nature Machine Intelligence杂志发表哈佛大学Urs Gasser等人的评论文章,该文章分析了美国和欧洲在医学领域人工智能监管方面的共同点和不同点、目标、核心价值和原则等内容。

以下是全文内容。

摘要

大西洋两岸(指美国和欧洲)的人工智能(AI)监管格局正在形成,科学界和工业界都在迫切地等待。医学领域人工智能方法的共同点和不同点开始具体化。

前言

在美国,FDA于2019年4月发布了人工智能在医学中应用的监管框架,并于2021年1月发布了行动计划(参见文章FDA发布人工智能/机器学习行动计划)。FDA在制定监管指南方面的领导作用,是美国国家层面对人工智能监管方法的体现。与欧盟(EU)相比,美国的政策坚持不对人工智能进行广泛和全面的监管,将责任下放给具体的联邦机构,其首要任务是避免过度监管,促进创新。

欧盟对人工智能在医学中的应用(AIM, AI applications in medicine)的监管结合了具体部门和跨部门的监管,并且承诺会更加严格。最值得注意的是,关于跨部门监管,欧盟委员会最近公布了一项关于人工智能的强大的法律框架的提案,即所谓的人工智能法案( AI Act),目标是促进人工智能的使用,促进信任生态系统的发展。法案并不局限于医学,而是提出了一个全面的基于风险的人工智能监管方法,将医学认定为是受到人工智能高度影响的行业。AIM需要满足《人工智能法》的要求,以及现有的《欧盟医疗设备条例》中已经规定的要求。

尽管在人工智能监管方法上存在重大差异,但美国和欧盟的共同目标是加强其在人工智能发展和实施方面的地位,而医学是一个关键的应用领域。美国和欧盟在监管方法上的相似性和差异性不仅存在于基本层面,而且存在于三个重点领域,这三个领域是:(1)生命周期监管;(2)算法偏见;(3)对用户的透明度。

生命周期监管框架

AIM最大的好处之一在于能够从现实世界的使用中学习,并有能力改善其性能,这一特点被称为持续学习。持续学习是一种技术,其中数学模型的决策逻辑通过新的数据进行更新,同时保留以前学到的知识。相比之下,锁定的AIM是在特定的数据集上训练的。它们在类似的数据上往往表现良好,但在很少遇到的场景中(训练时)表现不佳。

持续学习使AIM在医疗设备中独树一帜,在监管方面也是如此。到目前为止,监管并不是为自适应系统设计的。针对持续学习的AIM,美国和欧盟的监管机构都提出了一个跨越AIM所有阶段的生命周期监管框架,从上市前的开发到上市后的表现,并考虑到了这种学习系统的迭代性质。

美国和欧盟都引入了在初始授权时预先确定AIM的变化及其性能的可能性。针对AIM的授权,FDA提出了一个所谓的预先确定的变更控制计划。该计划要求制造商提供这些信息:计划通过学习改变"什么"方面,以及"如何"在保持安全和有效的同时学习和改变算法。改变可能涉及性能的提高或使用适应症的改变。例如,扩大到新的病人群体,而最初没有足够的证据支持该使用适应症时。

然而,有许多情况是需要新的授权的。例如,在预定的变更控制计划内允许AIM从最初的低风险AIM发展到高风险AIM是不合适的(例如,利用皮肤图像来管理疤痕的愈合到诊断黑色素瘤)。在欧洲制度下,建立一个质量管理系统也是强制性的。制造商需要记录他们管理其AIM修改的策略,质量控制或测试的技术,以及验证程序。

FDA指出,在没有进一步说明的情况下,报告上市后的实际表现应保持和保证适应人工智能系统的安全性和有效性。相比之下,欧盟监管机构对制造商规定了更详细的要求,并要求他们实施和维持一个市场后监测系统。该系统应积极和系统地收集、记录和分析关于AIM在其整个生命周期内的性能的相关数据(由用户提供的或通过其他来源收集的),目的是为了更有效地解决AIM可能出现的风险。此外,AIM必须在其整个生命周期中表现稳定,并根据公认的技术水平达到适当的准确性和稳健性。

与美国相比,欧盟的人工智能法案规定了更严格和更详细的先决条件,制造商要承担更大的责任。这种方法很可能会增加制造商的工作量和努力,但也可能使人们对AIM产生信任。

算法偏见

偏见不是AIM独有的问题。人们获得医疗保健的机会,会因为性别、种族和社会经济地位等因素而不同。例如,临床医生可能会错误地忽略女性心肌梗死的诊断,因为这些患者更可能出现非典型症状。由于AIM是在收集和训练历史数据集的基础上开发的,它们可能会使数据中存在的偏见永久化,这可能会导致某些人群的错误结果。因此,从历史电子健康记录数据中学习的人工智能算法,可能会推迟挽救生命的治疗。

美国和欧洲的监管机构都强调了减少AIM中偏见的重要性。FDA强调,这种系统必须非常适合种族和民族多样化的预期病人群体。同样,与美国相比,欧洲的做法更加具体。拟议的《人工智能法》要求用于AIM的数据必须符合质量标准并接受适当的数据管理。例如,应检查数据是否有可能的偏差,数据应是相关的、有代表性的、没有错误的和完整的,也包括AIM所要应用的病人。此外,如果有必要,这些数据应考虑到AIM计划使用的特定地理、行为或功能环境的特点。诚然,由于经济、社会经济或种族特征的不同,主要根据某些地区的患者数据训练出来的算法,在新的地区实施时可能代表性很差。欧盟的监管方式可能导致实施方面的挑战。

首先,欧盟是一个由多个成员国组成的地区,其内部和之间的民族代表性各不相同。当一个医疗器械在一个欧盟成员国获得授权时,它也可以在另一个成员国销售,而无需额外授权。因此,一个欧盟国家的地域代表性不一定能代表另一个国家。其次,要求国内和国际AIM制造商必须使用欧洲数据集或代表欧洲社会的数据集的队列(重新)训练他们的算法,可能会增加成本,延长授权过程,对创新产生负面影响。

对用户的透明度

到目前为止,美国的监管体系已经为医疗设备的授权和应用的透明度制定了标准。特别是,FDA为每一个获批的医疗设备公布了摘要或声明。相比之下,这种数据在欧洲是不公开的。欧盟委员会的医疗设备数据库(Eudamed2)是不公开的。

拟议的欧盟人工智能法案更加具体。AIM的设计和开发应确保其操作足够透明,使用户能够解释系统的输出并适当地使用它。它们应附有使用说明和信息,包括性能的特点、能力和限制,包括预期目的、准确度、稳健性和网络安全水平、培训、验证和测试数据的规格以及预期寿命。此外,将建立一个欧盟范围内的AIM公共数据库。制造商有义务提供有关其AIM的有意义的信息。这种登记将使当局、用户和其他有关人士能够加强对AIM的监督并促进信任。

从公共利益的角度来看,美国和欧盟强调加强透明度是值得称赞的。拟议的人工智能法案,如果作为法律颁布,可能会在这方面指向一个新的全球黄金标准。立法草案中提出的公共数据库是提高可信度的关键一步,因为它可以对AIM的利益和风险进行更有力的评估。人工智能法案中规定的透明度要求也可以为美国实践的发展提供参考,鉴于公开提供的AIM授权摘要往往缺乏清晰和全面的水平,美国的实践可以从升级中受益,这似乎是可取的。

共同的核心价值

美国和欧盟通过对(适应性)AIM的生命周期监管来应对AIM的相同的独特挑战,强调减轻算法偏见的重要性并促进透明度。尽管有这些概念上的相似性,但通过比较可以发现重要差异。总的来说,欧洲对AIM的监管采取了更严厉的方法,而美国的方法强调创新,更注重原则而不是细节。这些差异可能会导致AIM的创新和采用率的不同结果,无论是在医疗方面还是一般的情况下。

然而,也许更重要的是,监管上的差异可能会放大以前的政策决定。例如,AIM的许多核心算法是在电子健康数据上训练的。在美国,与大多数欧盟国家相比,电子健康记录引入得更早,而且收集了更多的数据,如人口统计信息、诊断、药物、医疗程序或来自自我报告的问卷调查结果。相比之下,在欧洲,以电子方式收集的健康数据往往不太全面。结合拟议的监管要求,制造商在欧洲获得足够的健康数据来训练AIM,以获得欧盟的授权,可能更具挑战性。

尽管有不同的动态和轨迹,但重要的是,美国和欧盟有一套共同的核心价值和原则。出于这个原因,美国和欧洲当局之间以及研究界之间更多的信息交流和合作似乎是可取的,以加强AIM的成功发展,以利于病人护理和整个社会的发展,这是美国和欧洲的共同目标。

参考资料
Vokinger, K.N., Gasser,U. Regulating AI in medicine in the United States and Europe. Nat Mach Intell (2021).https://doi-org.dkss.80599.net/10.1038/s42256-021-00386-z
(0)

相关推荐