港科大杨强教授:数据孤岛下的 AI 向善与联邦迁移学习
会议集结了包括潘云鹤院士、杨强教授在内的多名顶尖科学家、企业家与研究者,畅谈从自然语言到大数据智能,从社交机器人到计算传播学,研究金融科技、教育以及技术投资等最前沿的科技话题。
杨强教授是人工智能业界的国际专家,在学术界和工业界做出了许多贡献,尤其近些年为中国人工智能和数据挖掘的发展起到了重要的作用。
他是国际人工智能界 “迁移学习” 领域的发起人和带头人,同时为国际 “联邦学习” 的发起人之一及带头人。他当选为国际人工智能协会(AAAI)院士,成为第一位获此殊荣的华人,之后又当选为 AAAI 执行委员会委员,是首位 AAAI 华人执委,同时他也是第一位担任 IJCAI 理事会主席的华人科学家。
学术君就杨强教授在论坛中的精彩演讲进行整理,内容略有删改:
非常荣幸在 SMP 开场的时候有机会和大家交流我最近的一些研究心得。题目的缘起是数据孤岛和 AI,我们知道现在 AI 的热潮主要来自深度学习,而深度学习是离不开大数据的,但是其实我们周边更多看到的是小数据,数据难以获取、质量差的情况普遍存在,这些称为 “数据孤岛”,而且这些数据同时受到法律法规的限制,大部分不能进行使用,由此对各行业研究有一定影响。
面临这样的挑战,我们做技术的研究人员应该有对策,我们的对策有两条,一条是面对小数据,我们利用在别的地方获取大数据的经验,把这种知识迁移到小数据领域来。而我们作为人在解决问题的时候也经常使用这么一种迁移能力,像在教育领域,就有一个词叫 “学习迁移”,大致意思是学习能力比学习内容更重要。
第二个办法呢,我们知道知识常常散落在不同的地方,那么我们要把数据汇聚起来,形成大数据,往往是不能用简单粗暴的办法把数据聚集在一起。那么有一个更巧妙的办法,把模型建立起来,但是不用把数据汇聚起来。这里举一个例子,迁移学习就像一个老师在教一个学生,老师把自己的知识迁移到学生的大脑。那联邦学习就像一群大学生形成一个学习小组,来共同解决一个问题,大家都是单独的研究人员,但是在合作的时候形成互补,使得 1+1>2。那么今天的主题就是小数据能不能聚合成大数据。
首先是“ 数据不动,模型动 ”的思想,意思是说把数据保留在本地,那么模型参数可以在加密的状态下进行沟通,最后希望得到的模型的效果和这些数据物理聚合在一起的效果是差不多的,有几种办法可以达到这一点。一种办法是按样本分割,横向切割数据,为了把所使用的数据量扩大,在本地建立带有参数的模型,把这些参数加密,然后整合到中心服务器,在加密的情况下进行操作。
除了横向切割,还有纵向切割数据,不同的数据集不同点在于特征不一样。比如对于一家医院,它擅长做 CT 扫描,另一家医院擅长做核酸检测,如果将两者合起来,特征空间就会变大,我们的模型也会变好,这种合并并没有增加样本量,因此叫做纵向。
联邦学习是一种手段,能够让不同的数据集合理合法合规地把模型建立起来,同时尽量不让数据出本地,让参数保密。由此也出现一些研究问题,比如算法是否合规,是否安全?若有坏人是参与方,我们是否能识别出来,能否防御?除此外,算法是加密条件下的分布式机器学习,那还需要考虑两个数据集不是同构或同分布的问题。
但是如何持续吸引参与方加入联盟呢?这就需要我们不仅仅建立像经济学和博弈论的模型,同时还需要一个模拟的场景,那么这个场景就是我们最近研究的,需要考虑有哪些合理的激励机制,比较公平的分配方案。因此参与者可以看到通过联盟得到的收益以及需要它投入的成本。
有了这样一种联盟,那可以应用到什么领域呢?将联邦学习应该到推荐系统是目前做的比较多的。我们每个人的手机上都有很多短视频推荐系统以及新闻推荐系统,个性化的推荐使得千人千面,我们每天或多或少都会使用,而我们每个人的点击数据都是记录在手机上的,这个数据是非常隐私的。传统的做法是把数据移到云端,在云端进行模型化,再把模型迁移到本地来。
而有了联邦学习,可以让数据不出本地,同时可以让模型个性化。本地的推荐系统可以作为一个单独的任务,而任务相当于对本地的一种任务分解。这种分解分为两部分知识,一种是大家共有的知识,另一种是自己特有的本地的特征向量。如果把大家共有的向量一起做一个模型,这模型就非常的强大,同时可以既更新模型,又能够起到在本地进行个性化服务的效果,数据也不出本地。这种联邦的推荐架构就把数据给隔开了。
特别要讲的是医学,虽然医学是机器学习很好的应用领域,但是我们发现医学里的数据非常珍贵,非常少的,其中一个原因是用户数据都是具有高度用户隐私的,因此医院和研究机构不愿意共享这些数据,所以每一个地方数据很少以至于不足以建模。那如果在医院之间进行横向联邦纵向联邦,无形中把数据总量和特征也增大了。
最近和腾讯实验室合作,在不同地区的本地医院用联邦学习把脑卒中发病的病人特征做一个预测模型,根据病人的表现预测他得该病的概率有多高,最终准确率提高了 80% 以上,尤其在数据很少的小型医院,准确率甚至能提升 20% 以上。
我们还建立了国际产业联盟,有很多不同行业的公司和机构参与,我们希望能进行人才培养,并且对政府进行政策的建议,以及评估咨询等。最后,再总结一下,联邦学习是众多人工智能和社会相结合的一个,也不是唯一的一个,我希望以后的人工智能不仅仅关心算法,而且要关心 AI 向善的问题,也就是 AI 要用在人类社会,那么用户的隐私和数据的安全也要被考虑进来。不仅要建立算法,还得建立算法的合作机制和生态。
编辑:何静
排版:赵辰霞
编审:王新凯