做预测分析?也许你的方法用错了
那些想要好好利用预测分析法进行居民健康管理的医疗机构,第一,专注于关键的百分之三,弄明白那些人是谁。第二,在兼顾患者自身情况的同时重视医师和医疗辅助的因素。
动脉网(ID:vcbeat)
编译丨吕筱祎
责编丨莫人英
Sriram Vishwanath是德克萨斯大学奥斯丁分校科克雷尔电子工程学院(University of Texas, Austin’s Cockrell School of Engineering)数据科学与情报学的一位教授,他对预测分析法在医疗保健领域的应用,有着自己独到而深入的见解。
图:Sriram Vishwanath
首先,学界对于这一问题的看法分为两大阵营。
一方的观点是:任何试图将预测分析法应用于医疗保健领域的人都是在做无用功。医疗保健是一个十分复杂的领域,大部分人对该领域的理解都是不到位的。由于变量太多,想要做到准确预测是不现实的,做再多也只能算是描述性研究。
而另一阵营,即数据科学阵营,他们的态度则是非常乐观的,认为自己可以预测一切。不管抛来什么挑战,他们都认为自己可以圆满战胜。
在Vishwanath看来,上述两种观点都不正确。
他认为前者太消极。由于没有对数据科学形成正确的认识,导致他们抗拒挑战,也不相信只要应用得当,数据科学是可以对医疗保健行业产生积极的正面效应的。后者则过于自信,没有意识到眼下的任务有多艰巨。
将二者的态度中和一下也许能获得令人惊喜的结果,即:不要试图预测一切,而是将注意力集中于那些力所能及的部分。
对于那些想要玩转大数据的人来说,这应该算是最基本的一条建议了。“大数据与医疗分析论坛”已于今年十一月在美国波士顿举行。Vishwanath会上根据他多年来在数据科学与工程领域所积累的丰富经验,给那些想要有效利用高精度分析法的医疗机构提出了一些实用的策略与建议。
随着以医疗结果和医疗价值为导向的医疗收费模式逐渐普及,消费者和医疗服务方之间的界限变得越来越模糊。虽然医疗风险和资金方面的风险是两个完全不同的概念,但在进行预测时它们往往是被放在一起的,就好像一枚硬币的两面。
在美国医疗保险和医疗补助中心(CMS, Centers for Medicare & Medicaid Services)的要求下,医疗服务方也开始承担资金风险。因此,要不了多久,区分医疗风险和资金风险就显得很没有必要了。至于健康保险,它本就是一个高风险的行业,而自从开始收购医疗服务供应商之后,他们也要开始承担医疗和资金风险。
Vishwanath在数据分析领域探索了好多年:先是在德克萨斯大学担任了十几年教授,近来又开始担任医疗初创公司Accordion Health的CEO。这些经验让他明白医疗保健行业所面临的独特挑战是什么:数据科学视角下的痛点。从临床和资金角度考虑,什么样的理解和操作才能使预测分析法真正对医疗保健领域产生积极的效果和作用?
他已经做了好多年的预测分析,从网络环境、网络流量到消费者分析,再到试图理解消费者的行为特征,以及研究消费者的行为走向如何随时间变化。而当他真正将注意力转向医疗保健行业之后,他尤其注意到的一点是:跟过去相比,该行业现在的变化要快得多。电子化时代的到来帮助人们接触到好多纸质化时代根本不可能存在的数据。终于,医疗保健行业准备好了实现质量提升和成本控制的双飞跃。
尽管如此,Vishwanath还是注意到了一些不利因素:和“人工智能”及“协同效应”的处境一样,“预测分析”这个词已经被滥用,成为一个流行语了。那些声称自己从事预测分析的人,他们所做的事离真正的预测分析还有很大的差距。他们的工作可以被称为概述,或是解释,或是外推,但不是预测。
Vishwanath喜欢用漫画来解释,用不靠谱的方法进行预测分析的弊端。这个漫画的内容大致是这样的:主人公是一对新婚夫妇,背景是一张图表,横轴表示时间,纵轴表示女主人公的丈夫数。
男主人公根据现实情况取了两个坐标点,分别是:(昨天,0)和(今天,1)。然后他一本正经地由这两个坐标点得到一条预测曲线,并煞有介事地据此预测:到下个月,女主人公会有几十个丈夫。
很显然,这种方法是行不通的。
近来,医疗保健行业在预测分析方面取得了一些重要进展。考虑到和其它行业相比,医疗行业在此方面是有一定劣势的,所以这些进展显得尤为瞩目。
Vishwanath表示,数据科学家都喜欢拿消费者数据来说事儿,因为和医疗保健相关的数据比起来,消费者数据要容易获取得多。从每一位消费者身上你都可以获取大约十万个数据点,信息量大得无法想象。
而医疗保健行业的情况就不是这样了:数据量成了一个大问题。你能从每个个体身上获取的数据点大概只有三到四个——幸运的话也许会有十到十二个,但很快你会发现这并没有什么实际的帮助,因为这个个体的数据已经被太多人使用过了,已经失去了预测的价值。
对于所有想要将预测分析法应用于医疗保健行业的人来说,最难的部分是如何在所掌握的数据有限的情况下做出准确的预测分析:根据两三个数据点可以画出许许多多的曲线,但哪一条才是真正有效的?
也正因为如此,Vishwanath才强调要将注意力集中于那些力所能及的部分。在医疗保健行业,正确的思路是:专注于你所擅长的方面,至于不擅长的,要学会拒绝。
比如说,预测心脏停搏的难度极大。不要以为你可以给出高精度的预测数据,因为这是不可能的。相比之下,预测膝关节置换术的难度就要小得多,因为它背后的影响因素和时间轴相对容易掌控。
在居民健康管理方面,Vishwanath指出了两点问题:
第一,太多的医疗机构都把全体居民作为研究对象,但其实真正重要的只有全体居民的大概百分之三。专注于那关键的百分之三,尽量把他们的数据处理好,因为我们需要的不是全部值,而是离群值。
第二,大部分人都忽视了医师和医疗辅助对于预测数据的影响。这导致的后果是,即使你把目标锁定为少数离群值,那你充其量也只做对了一半,因为你没有把医师和医疗辅助的因素考虑在内。除此之外,邮编、人种、年龄等等因素也是十分重要的。
因此,针对那些想要好好利用预测分析法进行居民健康管理的医疗机构,Vishwanath提出了两点建议:
第一,专注于关键的百分之三,弄明白那些人是谁,对他们的信息了解得越精确越好。
第二,在兼顾患者自身情况的同时重视医师和医疗辅助的因素。如此才有可能做好医疗保健行业的预测分析。
END
点击图片阅读推荐内容↓↓↓
点击图片,参与“互联网医健年度评选”活动提名!
拿到1.46亿融资后,思路迪要干哪四件事?
看中医获5000万元A轮融资后要干五件事