今天的医疗为什么需要大数据
□赵屹
大数据,从一般定义上来讲,是指难以被传统数据管理系统有效存储、管理、分析的复杂数据集。
虽然我们讲了很多年的大数据,可是什么样的量级才能叫作“大数据”,还没有定论。大数据产生的方式不一样,数据的结构也不一样。与传统数据相比,大数据一般有四个V的特征。第一是volume,数据量大;第二是variety,数据类型多;第三是velocity,产生的速度快;最后一个是value,数据中包含着重要价值。这是大数据最重要的特征。但同时,它的价值密度低,数据之间的关系太复杂,用少量数据不太可能找到正确规律,因此,才需要庞大的数据作为基础,进行传输、存储、分析、可视化等工作。
要强调的是,作为研究使用的大数据,必须严格控制选入标准和质量。否则一旦给人工智能模型garbage in(提供“垃圾”),就一定会garbage out(结果错误)。
去年,中科院多位院士进行了一系列调研总结,发现我国拥有非常庞大的医疗健康大数据,这对进行生命健康领域原创性的研究,及对发展生物医疗产业来说,都是非常核心的竞争力。但当前的现状却不容乐观:数据碎片化严重,缺乏大数据的质量规范和标准,缺乏共享机制,没有建立大数据的综合管理体系。这一现状最直接的结果之一是患者们在不同医院就医,医院之间很难有信息共享的标准和体系。我们非常期望不同的学科及部门重视当前存在的问题,围绕医疗健康大数据进行深入研究,共同促进科技和产业的发展。
为什么强调大数据的重要性?举一个例子。2019年,有一篇刊发在Nature(《自然》)杂志的文章,研究的是精神分裂症与基因遗传位点的相关性。研究者发现,当入组患者数量在6900名的时候,没有在任何基因的位点上发现跟精神分裂症的相关性;当样本人群扩大到23000人,研究发现了7个位点;而当入组人数扩大到6万多人的时候,可以找到22个位点;入组15万人时,可以找到108个。从这个例子可以看出,数据规模和最终得到的科学结论是正相关的。因此,大数据是开展深度学习的重要基础。
目前,我们所开展的医疗健康大数据的研究主要面向三类,分别是电子病历、临床影像以及生命组学数据。
第一类,电子病历,大家都很熟悉。平常我们接触的电子病历都是医生用自然语言写的一段描述,但要让计算机进行学习和分析,对某种疾病进行诊断,还要经过数据结构化处理、数据治理等过程,把其中的关键词提出来,让计算机读懂这些信息。比如,哪些是症状,哪些是诊断。
2019年,Nature Medicine(《自然医学》)杂志发表了一篇文章。作者应用了临床100多万册儿科门诊病历,通过结构化处理,进行深度学习,实现对儿童呼吸道疾病的诊断。最终,研究呈现出的模型,对儿童上呼吸道疾病和下呼吸道疾病的诊断率,分别能达到89%和87%。
如果再细分的话,对传染性的单核细胞增多症能达到90%的诊断率。
第二类是医学影像数据。目前,医学影像数据结合人工智能已给医学发展带来了巨大变革。人工智能最早的应用就是在图片的识别上,而在医疗健康领域,早在2018年的JAMA(《美国医学会杂志》)上,就曾刊发过一篇用深度卷积神经网络对糖尿病性的视网膜病变进行诊断的研究文章。
该研究使用超过12万张图片进行了训练学习。最终,完成学习的人工智能模型,在对该类疾病的诊断上,完全可以达到专业眼科医生的水准。当然,在计算机进行学习前,所有图片必须通过专家3~7次的评估和标定。学习结束后,还要通过测试来检测它的准确度。
而从时间和效率上来看,假如一位资深的病理学家看100张病理切片要花30个小时,同样一批切片,人工智能模型可能只需要一个多小时,而且还可以确保一定的准确率。
此外,人工智能在对语音的识别和理解上也能做得很好。未来,人工智能不仅可以理解我们为它输入的信号、手势动作,还可以把输入的多模态信号做一些融合,进行认知,甚至进行情感理解、语义理解最终与人进行多模态的交互。这意味着,未来从接触患者开始,就可以通过人工智能的问诊来获取信息,结构化之后再提供给医生。患者所做的检查,也可以通过数据的融合进行预诊分诊,告诉患者应该挂哪个科,考虑哪方面的疾病等等。
第三类是生命组学数据。在医疗健康领域,目前高通量低成本的基因测序,不仅可以了解基因组,还可以对转录的RNA进行测序,甚至检测DNA不同的修饰,检测人体微生物组学,进行蛋白组的测序。每个分子组学层面的变化或异常,都会跟一些疾病发生相关。
在对这些大量的数据进行分析后,不但要把不同组学的数据综合在一起,还要把电子病例信息、影像数据,以及其他可穿戴设备数据等整合进来,应用人工智能技术,最终为每一个人的健康状况给出建议和指导。
现在,我们正处于大数据驱动的新型医学研究模式之下。我们从以往只靠临床数据去研究疾病,进入到一个通过人工智能算法,通过计算能力,来对医学和疾病进行研究的阶段。
虽然人工智能时代已经来临,但它在医学健康领域的应用才刚刚起步。大数据是智能医疗的基础,人工智能只是一类工具。智慧医学的核心还是临床应用场景,其发展的关键仍是交叉学科的人才培养。