中医药与大数据

目前,医疗产业已经产生海量数据,其数据类型包括中医古籍专著、名老中医医案、病历、文献期刊、临床经验总结等各种中医诊疗相关数据,且数据类型和数量仍在增加。然而,这些医疗相关数据在过去并未得到有效的利用,主要原因归结于两个方面:数据收集整合困难,缺乏数据安全共享平台;标准化难题即中医固有的经验性、不确定性及模糊性,难以转化为线性逻辑,本研究就这两方面的问题及现状进行综述。

大数据相关技术紧紧围绕数据展开,数据的采集、整理、传输、存储、安全、分析、呈现和应用等等都属大数据的范畴。中医药在抗击新冠疫情的过程中发挥了重要作用,面临中医药发展的重要契机,中医药如何借助数字化平台、大数据和人工智能更好的服务于行业的发展和人民健康是目前亟待解决的难题。

1.数据收集整合难题

人工智能是交叉学科的产物,机器学习、自然语言处理等是其主要的研究方向。人工智能和大数据关系密不可分,大数据是人工智能“思考”和“决策”的基础,人工智能是大数据进行价值化操作的必备条件。林树元[1]基于人工智能结合文献计量学可视化分析,总结了现今中医智能化研究中的数据困境导致深度学习效果不佳的难题。深度学习的模型训练需要以大数据为基础,目前,中医古籍专著、医院病历、名老中医经验等数据分布散乱,数据涉及病人的隐私而变得敏感,因此增加了收集的难度,且缺乏权威的、安全的数据管理和共享平台,来源复杂的资料的收集、整合和数据管理将是一项繁琐艰巨的任务。

2.标准化难题

中医药大数据主要来源于长期的临床实践和临床记录,这些数据都是以自然语言的形式存在,只有将其转换成计算机语言才能被进一步的使用,其转化的核心是自然语言处理和医学文本识别。然而,机器的决策是在理解文本语义的基础上进行的,由于中医学的病例文本大多属于非结构化数据(大数据结构化是指数据标准化处理、指标标准化处理、去重去敏、安全处理等,只有在数据结构化之后,数据才能用于挖掘和分析),中医学有较多非标准化的表达方式,人工标注成本极高,导致中医学命名体识别的难度极大[2]。其次,与循证医学不同,中医辨证论治的治疗原则具有复杂性,同种疾病会有不同证型和症状,同种症状和证型可能出现在同一种疾病中,不同疾病也没有清晰的边界,这些因素会导致疾病算法模型生成难度增加并使诊断结果不稳定。

3.近几年的国内外发展

2015年发布《北京中医药文化传播发展报告》认为,将大数据对患者的信息收集、整理、分析以及在中医“治未病”方面的长期信息跟踪和预测用于中医药学术研究和临床经验总结,将成为中医药学术在现代可持续性发展中的正确道路。近年来由于受中医药临床数据的信息采集技术和设备的限制,很多研究机构对中医大数据的研究和建设停留在对古籍文献整理和基础资料汇集的层次,未形成真正符合现代大数据分析意义上的中医药大数据系统,与大数据信息采集连接的中医能分析系统的形成差之甚远。

随着近几年深度学习的迅猛发展,基于这些数据难题,在Watson辅助系统的支持下,国际商业机器公司(International Business Machines Corporation)宣布已经拥有1 亿份患者病历,3千万份影像数据以及 2 亿份保险记录,数据总量超过 60 万 TB,覆盖人数约 3 亿,然而这些是在花费了40亿美元的基础之上获得的。谷歌公司也在英国国家医疗服务系统(National Health Service,NHS)的帮助之下获得了160万患者的健康数据,但由于医疗数据涉及到患者的隐私,因此引起来了很多争议,数据收集也变的敏感而困难。潘玉颖[3]提出文本挖掘、文本搜索及Python技术是解决数据难题必备的关键技术,并应提出矩阵分析方法构建“药物组合=f(症状组合)”的函数式,建立中医数字化模型,利用人工智能构建函数f,证素赋值法构建药物组合和症状组合,模糊数学方法赋值证药信息,从而构建适应中医非线性对应的数理模型,成功实现了在tensorflow系统环境下输入症状可产生处方的效果。

4. 讨论

中医学讲求天人合一的整体原则,研究对象始终是人这个整体,而非人的病,因此中医药构建的是关系本体而非实体本体,面对这样一个复杂的巨系统,我们要处理其中诸元素的相关性;其次我们需要将研究的对象置于自然、社会、心理的不同环境之中,从整体出发去考虑问题,因此发展出非线性的辩证体系。最后,将生命科学与人文科学有机地结合起来也是中医药治疗疾病的重要方法。

大数据具有全体性、混杂性和相关性,同时,大数据的思维也是非线性的。医学领域的大数据提供了研究对象在社会中各个维度的数据,所以在理想的情况下,一个从社会到身体再到心理的全方位的分析无疑是生命科学与人文科学的结合。

中医药大数据成果的产出不仅需要互联网技术和人工智能方面的人才,在中医数字化模型的构建中,中医学、统计学、数学等相关专业知识也同样重要,因此同时具备这些专业素养的综合性人才的培养是中医药大数据获得成果的重要一步。同时,如何安全管理这些数据,防止个人隐私数据泄露又能合理利用,也是需要严肃对待的问题。

(0)

相关推荐

  • 无人车到山前必有路吗?----人工智能应用为何不如人意!(3)

     无人车到山前必有路吗? Will driverless cars make their way to the mountain? ------人工智能应用为何不如人意!(3) 都世民[Du Shim ...

  • 中医药大数据与人工智能研讨会成功举办

    2021年9月24日,由上海中医药大学主办,星环科技承办的中医药大数据与人工智能研讨会在星环科技总部圆满落下帷幕. 会议由上海中医药大学副校长舒静主持,原国家卫生健康委副主任.原国家中医药管理局局长. ...

  • 人生很多难题,大师给你答案

    很怀念小时候,那时报纸.杂志.电视和广播是我们的灯塔,图书馆是我们的星辰大海.那时我们的记忆力好于体力,没有云存储,只有脑回路. 这是申鹤公众号第204天的第204篇原创文章 国士无双决定正式要布局智 ...

  • 爱数的“认知”哲学

    凯文·凯利在他的<必然>中,对未来世界做出过几项重要的预测,其中就有一个关键词叫做"知化",所谓知化就是"赋予对象认知的能力".   正如凯文·凯利 ...

  • 祉云科技:以图像处理技术推动中医智能化发展

    从<皇帝内经>.<本草纲目>到今日的<中医临床诊疗>,时代变化下,中医这一医学学科也不断成长. 时至今日,中医在人体健康和疾病本质状态的认识上,已形成了较为完整的系 ...

  • 金融科技简述 I

    电力革命与大数据.云计算.人工智能 人类的航海历史始于以人力.风帆为动力的传统时代.近代蒸汽机和燃油发动机的出现大大提升了航海的效率,全球贸易蓬勃兴起.应用现代核能技术,航空母舰和大型潜艇在大洋中实现 ...

  • 陈根:理解代词对象,人工智能需要多努力?

    文/陈根 具有代替和指示作用的代词,作为实词在句法和文本中具有重要作用.代词令语言简洁且更富有变化性. 对于人类来说,识别代词指代对象并不算困难,凭借对上下文和对句子的理解就可以找出代词的指代对象.然 ...

  • 当前人工智能技术面临的难题有哪些?开课吧

    随着以机器学习.深度学习和大数据为代表的人工智能技术不断发展,新一轮的产业革命正在到来,社会的经济和产业结构.劳动力市场分工发生了很大的变化,然而当前人工智能技术还面临着三道难题:可解释性.常识和知识 ...

  • “中医药+大数据” 帝问中医智能系统,为推动中医养生文化发展贡献力量!

    把脉问诊.面对面.一对一是人们对中医药的传统印象.现如今,随着中医药与"时尚"的大数据.云计算.物联网.人工智能等新技术深度融合,中医药的现代化走上新赛道. 养方堂独创" ...

  • 【大数据】两化融合下的大数据未来

    工业大数据特征 " 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理.IBM提出的大数据的5V ...

  • 为精细化工行业,打造大数据化工电商网站平台

    为企业打造百万级化工电子商务系统平台,也支持为化工行业定制大数据化化工网站平台,[数商云]借助工业大脑算法平台与知识图谱技术为客户建立大数据分析的化工电商网站系统,实现:化工行业生产/控制参数优化,关 ...

  • 天眼查大数据:我国目前有5万多家无人机相关企业,行业分布广泛

    在刚刚结束的五一假期中,我国多个城市运用无人机在夜空中进行表演,给市民和游客带来了一场场惊艳的视觉盛宴.据中新网报道,5月1日晚,福建省漳州高新区龙江岁月夜空格外美丽,数百架无人机腾空飞起,在上空摆出 ...

  • 我们这张总是暴露给大数据的脸,还安全吗?

    经过3.15曝光人脸识别滥用[1].人脸识别第一案二审[2].公安部破获22起贩卖人脸数据案件[3].以及房企因收集人脸信息被市监局处以罚款[4]等事件后,人脸数据已经站在了风口浪尖.正在这个合规如火 ...

  • 《2021五一旅行大数据报告》

    在线旅讯 · 2021-05-06 07:15:26                 携程酒店预订间夜以及GMV在假期前三天连续突破平台历史峰值,对比2019年同期,单日订单量增幅最高达70%. 5月 ...

  • 离婚大数据曝光:“婚姻的真相,跟谁过其实都一样”

    文 | 哲学君图 | 网络 来源 | 哲学人生网(ID:zxrsnet) 前段时间,民政部发布了最新统计的结婚离婚大数据. 数据一发出来,就引发全网热议. 2020年,我国结婚登记数据为813.1万对 ...

  • 中国人的健康大数据,惨不忍睹,反思吧!

    70%中国人过劳死危险:76%白领亚健康:20%患慢性病:慢性病死亡率占86%:中年死亡的原因中22%是心脑血管病......健康大数据不容乐观! 威胁健康的致命因素有哪些?健康大数据告诉你 健康大数 ...