AI的破局与落地,联邦学习在中国的加速进化之路
由于面临着数据孤岛和数据隐私保护等问题,AI产业落地进程面临着严重的数据困局。联邦学习技术正是为了应对这一问题而被提出,现在已成为新一代人工智能最重要的技术范式之一。
在联邦学习出现并快速发展的三年多时间里,国内外诸多科技巨头都已经开展联邦学习的深入研究与应用。值得注意的是,在联邦学习技术的研究和推广上,我国的科技企业与研究机构不再是处于跟随状态,而是处于和国外科技巨头并驾齐驱的水平。其中一些头部企业正在积极参与到联邦学习的技术标准制定,以及产业应用落地的实践当中。
联邦学习为何如此重要?在最近两年当中,联邦学习又是如何在众多国内科技巨头的支持和推动下,实现迅速发展和应用落地的?这成为很多人非常关心的问题。
打破AI数据困局,联邦学习的野马之姿
联邦学习,谷歌这一技术设想,主要回应的问题是如何有效利用用户终端上的数据进行AI模型训练,而又不侵犯用户的数据隐私。
工程师们的解决方式是用户数据只需在本地终端进行训练,云端服务器只要获取训练后的训练模型(权重)即可,也就是搭建一个大型的分布式神经网络模型训练框架,从而让用户数据不离本地,同时也能获得很好的AI服务体验。
联邦学习的出现,让每个用户都可能成为AI发展的贡献者,同时又启发了企业之间跨越AI落地的数据鸿沟的一种崭新方式。
所谓的“数据鸿沟”,主要是我们常听到的“数据孤岛”。一方面是企业逐利的本性,必然使其不愿拿出自身的数据与其他公司交换,导致少数几家巨头垄断大量数据而小企业无数据可用的马太效应;另一方面是全球各国对数据隐私保护的监管越发严格,企业在用户数据使用和共享上面更要考虑合规合法的应用,因而进一步加剧了数据孤岛效应。
在这一数据鸿沟的制约下,众多行业和企业会因为没有高质量、大规模的数据支撑而无法得到更好的训练模型。特别是对于一些专业性强的细分领域,如金融、风控、法律以及医疗等领域,由于各家的数据无法打通,自身的数据量又有限,会极大地限制其AI技术的发展。
既能保护数据不共享以保护用户隐私,同时又能在云端更新和共享通用模型,这正是联邦学习技术所能实现“两全其美”的策略。
联邦学习在从C端应用向B端产业应用演进中,形成了更为通用的解决方案:一、横向联邦学习,即样本中用户不同,特征相同,谷歌的方法即是这种;二、纵向联邦学习,即样本中用户相同,特征不同,适用于拥有同一批用户的不同企业;三、迁移联邦学习,即样本中用户、特征都可能不同,这样可以通过数据的升维或降维,从而进行另外数据子空间的迁移学习。
这样,联邦学习作为一种更加泛化的机器学习方式,就可以把更多像金融、保险、医疗、安防、教育等行业机构作为数据主体来进行AI的模型应用场景了。而在联邦学习技术的深化和扩展当中,我国的多家科技企业发挥了重要的作用。
百舸争流,联邦学习在中国的成绩单
作为联邦学习技术的深度参与方,国内企业不仅参与了联邦学习的技术研发和应用,同样还参与了联邦学习的标准制定以及贡献了多个开源模型框架。
首先,我国的多家企业组织和参与了联邦学习基础架构与应用规范标准的制定。去年,联邦学习基础架构与应用(IEEE P3652.1)标准工作组两次会议先后在深圳、洛杉矶召开,国内众多企业对联邦学习标准草案的制定提出建设性意见,并预计在今年出台这一草案。
业内人士评价,联邦学习技术正是在全球知名人工智能专家杨强教授和其团队主导参与的IEEE联邦学习标准制定委员会的推动下,才成为备受产学研各界关注的人工智能的研究领域。
其次,国内多家企业也都纷纷推出了可以进行产业落地应用的开源框架。
比如,腾讯发起的微众银行早在2018年就基于联邦学习理论研究进行相关开源软件研发,在2019年初,正式开源全球首个工业级联邦学习框架 FATE(Federated Learning Enabler),其实现了基于同态加密和多方计算的安全计算协议,在信贷风控、客户权益定价、监管科技等领域推出了相应的商用方案。
去年,百度在PaddlePaddle 2.0开放平台中,也增加了PaddleFL联合学习框架,PaddleFL主要是面向深度学习进行设计,提供了众多在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用场景。同样,平安科技在其提出的联邦智能体系的基础上,自主研发了蜂巢联邦学习平台,主要应用于多方信息的安全协作计算,满足银行和金融机构的风险评估、反洗钱、投顾、投研、信贷、保险和监管等多场景应用需求。
同样,基于联邦学习理论的多方安全计算技术,腾讯云开发出“腾讯云数盾”来满足数据安全治理的多重需求。阿里巴巴也早在2015年就开始了与联邦学习思路相同的共享学习技术的研究,在各方通过共享加密数据或加密机制下的参数交换方式来进行机器学习,建立虚拟的共享模型的产品平台。
此外,华为、京东、联想以及国内多家创业企业都已在联邦学习的生态发展中贡献进行着各种不同细分领域的实践创新。
这些国内科技企业之所以纷纷投入到联邦学习技术的研发和推广,正是看到其在用户数据隐私保护与AI技术创新上面实现的完美平衡,以及带来的众多产业的AI应用落地的机会。
推动AI产业落地,联邦学习的中国实践
根据联邦学习的技术特点以及参与企业的当前的研发重点,金融领域成为联邦学习最先进行应用落地的主要场景。其中在金融业务的众多环节中,信贷风控可谓是典型的联邦学习的应用落地场景。
基于联邦学习的信贷风控,微众银行提出了“同态加密中间变量”的解决方案,也就是保证原始数据不出库的情况下,使用经过梯度交换得到的中间变量来进行风控模型的建模,从而降低使用中心化机器学习带来的系统性隐私风险。
通过联邦学习实现的信贷风控的用户数据网络增强,就可以在贷款前更好地判断客户风险,帮助信贷公司过滤信贷黑名单或明显没有转化的贷款客户,进一步降低贷款审批流程后期的信审成本;同时在贷款中实现用户放款后行为的动态评估以辅助授信额度的调整,在贷款后期帮助放贷机构进行催收的策略评估,调整催收策略,提升催收效率。
在医疗健康行业,同样也长期面临着“数据孤岛”的问题,从而制约着医疗AI的发展。
基于患者数据隐私保护的要求和各家医疗机构数据无法互联互通且标准不一的问题,联邦学习可以很好地避开医疗机构之间的信息壁垒,不再需要将各家数据做集中合并,而是通过协议在其间传递加密之后的信息,而各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。
日前,腾讯的天衍实验室和微众银行正是利用这一联邦学习的方式成功构建了一个“脑卒中发病风险预测模型”,既能利用两家医院的加密后的共同的患者样本进行特征建模训练,又能很好地保护各自的数据隐私,最终比两家医院各自独立训练的模型效果准确率有了大幅的提升。
在安防监控行业,AI安防系统也同样由于数据隐私保护的监管要求和各家安防厂商之间各自为战的状况而难以获得很好的发展。假如有多个厂商使用联邦学习来训练和优化AI算法模型,就可以让每家企业在自己的服务器上进行训练,只需加密上传训练模型到后台,进行模型优化后,再反馈给各个厂商改进后的模型方案。
除了金融、医疗和安防行业的应用外,联邦学习正在深入到其他行业当中。未来包括像金融、医疗、保险、安防、教育、零售、工业以及智慧城市等各个行业和场景,都可以依赖联邦学习技术实现行业AI能力的提升,从而实现降本增效的运营目标。
总体而言,对于国内这些联邦学习的积极推动者和践行者的科技企业们而言,联邦学习到底意味着什么?
首先,去年5月我国网信办出台了《数据安全管理办法(征求意见稿)》这一被称为“中国版GDPR”的法规,标志着我国数据规范使用的时代已经到来。面对越来越严格的数据安全的监管要求以及日益严峻的用户数据隐私保护的风险,国内这些科技企业必须将数据的合规合法的使用当作日常运营的关键要务来看待。
数据安全的严格限制无疑会带来企业在AI技术应用上面的挑战,联邦学习技术正是应对这一监管挑战和行业竞争限制而提出的解决方案,自然得到了科技企业的大力推崇。
其次,对于那些科技巨头而言,联邦学习技术不仅能直接解决企业内部的“数据孤岛”问题,也可以使其在所要涉及的行业内建立起数据共享的合作生态。只有抢占先机,推出自己的联邦学习的开源架构,才能吸引更多的行业伙伴加入到这一联邦学习的生态当中。
另外,对于那些创业企业或行业客户而言,既没有丰富的数据资源,也没有充足的资源投入到AI系统的建设上,通过加入联邦学习的生态,借助巨头的平台和大数据资源,进行自身AI模型的优化,大幅降低企业智能化升级成本,成为一件非常划算和可行的选择。
近两年,我们经常会听到“普惠AI”这一概念。普惠AI的愿景肯定不会只是一两家AI巨头就能实现的,而是更需要各行各业的企业、组织和个人一同参与,来为AI的技术升级与落地贡献源源不断的数据资源。
在AI的持续演进和数据隐私安全保护的交织下,联邦学习正在搭建一座机构与用户、机构与机构之间数据信任、共享普惠AI成果的桥梁。而这座联邦学习生态之桥的建设,国内的技术建造者和各行业的参与者还有很多的工作要做。