MIMIC—没有自己的数据也能发表SCI,谁不爱呢?建议收藏

很多医生想通过挖掘临床数据库发表SCI,但是因时间精力有限等原因未能建立自己的专科数据库,或因一些重症患者资料过少,难以分析。不过我们身处于大数据时代,只要用心,数据的获取并不难。目前国内外已经有很多免费对外开放的大样本的临床数据库,只要通过一定的申请,就可以获得相应的数据。今天小助理先跟大家分享的是MIMIC重症监护数据库https://mimic.physionet.org/)。

数据库介绍
随着医疗信息化建设的高速发展,医疗领域已经积累了大量的电子健康档案(EHR)数据,包括:来自各级医院的医疗记录,如生命体征信息、实验室检查、影像学检查、基因数据;公共卫生服务机构数据;地方卫生局行政管理数据等等,其中既有大量结构化数据,也有非结构化数据。对EHR分析利用一直是医务工作者及其他相关研究人员关注的重点,包括循证医学、公共卫生领域、药物研究开发、基因分析等各方面的研究。
以重症监护医学信息数据库(MIMIC)为例,它是由麻省理工学院计算生理实验室建立的大样本、单中心危急重症监护数据库,包含了美国波士顿BID医学中心(Beth Israel Deaconess Medical Center)重症加强治疗病房(ICU)去隐私化的医疗记录,并免费提供给全球研究者进行学术研究;其数据类型包括患者生命体征、实验室检查结果、药物使用、护理记录、手术操作代码、疾病诊断代码等。
最新版本MIMIC-于2015年年底发布,包含了49 785例患者的入院记录,以及从2001至2012年53 423例次年龄≥16岁的ICU患者记录。相比MIMIC-数据库,MIMIC-数据库增加了2.8万条记录,而且在数据清洗校对方面做了更多工作,使其结构更加简单,数据可靠度更高。
机器学习、大数据技术在医学上成功应用的案例,使越来越多的研究者和临床医生对利用医疗数据资源进行研究产生了极大的兴趣。目前国内外基于医疗数据库开展临床科学研究的思路通常是进行回顾性研究,首先由临床医生根据工作中需解决的重点难点问题提出需求,再与工程师组成跨学科团队,基于EHR共同解决问题。在该种模式中的重点环节之一就在于由临床医生提出合理化的科学问题,工程师围绕该核心问题进行数据提取、建模和分析。
然而对于从事一线临床工作的医生和学者来说,由于缺乏SQL编程和EHR数据库架构的相关知识,对MIMIC-等大型数据库疾病谱认知的缺失,其提出问题的模式还基于自身所在医疗机构疾病谱特点,导致所提出的临床问题得不到数据支撑。
因此,让临床医生或研究者先期了解数据库中的数据内容是促进其与工程师交流合作,高效利用EHR进行二次分析的重要手段。
MIMIC-III重症监护数据库概述
MIMIC之所以备受推崇,在于它:
1.免费,是同类中唯一可自由访问的重症监护数据库;
2.数据集跨越十多年,包括多样化和大量的ICU患者
3.包括人口学资料,实验室结果,治疗方案等数据。
4.一旦数据使用协议被接受,分析就不受限制
因此,在没有自己独立的数据库之前,大家不妨先用公众数据库练练手。

官网列出的部分使用该数据库发表的SCI

如何获取数据库
MIMIC-III内是以逗号分隔值(CSV)文件的集合,一般使用PostreSQL,MySQL和MonetDB等将数据导入数据库系统。由于数据库包含有关患者临床护理的详细信息,因此必须谨慎对待并予以尊重。
研究人员想要获取数据库系统,必须通过MIMIC网站上记录的流程正式请求访问
1.完成相关课程。在授予访问权限之前,必须完成CITI“仅数据或样本研究”课程。首先在CITI计划网站上注册,选择“麻省理工学院附属机构”作为组织从属关系(https://www.citiprogram.org/index.cfm?pageID = 154 &icat = 0&ac = 0),添加麻省理工学院附属课程,在人类受试者培训类别中,选择“仅数据或样本研究”课程
2.请求访问MIMIC-III。在PhysioNet上创建一个帐户(https://physionet.org/pnw/login)后,按照PhysioNet上的说明申请访问MIMIC-III项目,并提供您的CITI完成报告
(https://physionet.org/works/MIMICIIIClinicalDatabase/access.shtml)
3.完成申请后,批准至少需要一周时间。一旦申请获得批准,你将收到电子邮件通知,其中包含从PhysioNetWorks下载数据库的说明。
4.接着就可以访问PhysioNet上的“MIMIC-III临床数据库”项目页面(https://physionet.org/works/MIMICIIIClinicalDatabase/)下载数据进行分析。


下载安装

本地数据库安装的大致步骤是:
1.从physionet进入个人账号,进入MIMIC III数据库,下载所有的数据包(约40G),然后解压缩为本地计算机上某处的.csv文件
2.下载并安装postgresSQL。
3.下载建库的脚本(script)。
不过要提醒大家的是,MIMIC-III的数据文件内容非常大,约有40G的文件,在下载前,建议大家预留好相应的空间。更具体的安装过程可以参阅官网上给出的参考:
安装MIMIC(windows):
https://mimic.physionet.org/tutorials/install-mimic-locally-windows/;
 安装MIMIC(Mac或Unix):
https://mimic.physionet.org/tutorials/install-mimic-locally-ubuntu/。
“它山之石可以攻玉”,最后当然就是按照自己感兴趣的点,对数据库进行挖掘和讨论,得出研究结论。不过要强调的是,MIMIC虽然是一个免费公开的数据库,但其中涉及到很多医护人员的心血,如果引用了其中的数据,记得加上相应的引用,以感谢他们的付出。

欢迎关注公众号启帆医学BioSCI, 创始人之一为留美海归生物医学博士,经过数年积累,汇聚了大批国内外顶级名校的教授、博士、博士后以及其他科研人员等强大人脉资源。

(0)

相关推荐

  • 强烈推荐!大型医学公共数据库大盘点

    本文作者杨其霖,第七期小黑屋学员,学号:BH70256,广医二院重症医学科医生,众多小黑屋训练营学友的新晋男神~ 输12 为什么要挖掘公共数据库??? 每次想到这句话就有为何不吃肉糜的感觉. 数据矿主 ...

  • 大数据时代最全的医学公共数据库合集整理

    数据库技术是研究.管理和应用数据库的一门软件科学.通过研究数据库的结构.存储.设计.管理和应用的基本理论和实现方法,对数据库中的数据进行处理和分析. 本文我们将介绍几种数据库和数据挖掘技术,帮助临床研 ...

  • 【生信挖掘】浅谈生信入门学习知识

    生信已经成为科研圈发SCI的神器了,检索PubMed上可见发表的文章不管高分低分都涉及生信,甚至南通大学2016级临床本科生张波发表21篇SCI,从影响因子 15分(2020年发表,实时IF 26分) ...

  • 手上有大量临床数据却不会分析发SCI,真替你们着急

    昨天我们发了一篇这样的文章(不做纯生信,临床医生可以30分钟完成这篇范文的操作),有不少临床医生看完这篇文章之后觉得自己手上也有很多这样的临床数据,但是由于自己没有接触过构建模型,不会分析成相关图表发 ...

  • MIMIC专题|傻瓜版MIMIC数据库注册指南

    本文作者为学号BH70058麻醉专业的樊桂波医生和学号BH70155神经外科的张文佳医生,小黑屋训练营的模范学员~ MIMIC(Medical information Mark for Intensi ...

  • 为ICU失误亮红灯,AI如何实施监控重症监护全流程

    当患者进入了重症监护病房,那么就等于将一切托付给了医生.然而重症监护室监控的指标众多,不同的患者需要关注的指标权重也各不相同,尽管医生护士全神贯注处理病人相关的事项,失误仍在所难免. 据数据显示,美国 ...

  • MIMIC专题 | MIMIC数据库的安装

    本文作者为学号BH70058麻醉专业的樊桂波医生,小黑屋训练营的模范学员~ 上期樊老师跟大家分享了 MIMIC数据库的介绍和注册指南

  • 如何进行GEO临床数据查询

    推荐两个可以进行GEO临床数据下载的网址 乔治敦癌症数据库(G-DOC)(https://gdoc.georgetown.edu/gdoc/),G-DOC是一个精准医学平台,其中包含来自一万多个患者和 ...

  • 公共数据库找不到自己需要的数据,该咋办?

    现在是大数据时代,在这种环境下,最流行的莫过于数据挖掘,各行各业都在进行数据挖掘.所以,我们临床医生也不例外.例如现在大家都在搞这个GEO数据挖掘,TCGA数据挖掘,SEER数据挖掘,临床数据挖掘等等 ...

  • 历届直博会大数据,本届必看实用信息【建议收藏】

    首先,我们来一起看看直博会的历届大数据. 太精彩了!!! 首届中国天津国际直升机博览会 主办单位:天津直博会由天津市人民政府.中国航空工业集团公司.中国人民解放军总参谋部陆航部. 展会时间:2011年 ...

  • Excel筛选数据,大神级操作技巧,建议收藏!

    在Excel工作表中,怎么筛选数据比较便捷? 普通小白筛选数据的两种方法: 第1种方法 1.选择表头,在"数据"功能区中的"排序和筛选"面板中,单击" ...

  • 运营人常用的11大数据分析模型,你get了吗?| 建议收藏

    随着数据运营持续走热,企业及其内部运营人员也越来越重视自身数据运营能力的培养.易观方舟结合数百家客户服务经验,总结提炼出了"理数-收数-看数-用数"的数据运营闭环,旨在帮助企业和内 ...

  • 玩转临床数据,轻松发表文章丨临床科研

    关键词: 类风湿关节炎:TAM受体酪氨酸激酶(TAM RTK):破骨细胞 手握海量临床数据,却在发文章面前犯了难,迟迟发不了高分文章?别担心,西安格物带您一起玩转数据,挖掘高质量的数据结果,让您发文章 ...

  • 值得跑者收藏的数据工具表:配速和心率建议、耐力与体能评估……

    训练配速建议 不同马拉松成绩所对应的训练配速 训练心率建议 不同配速跑步训练所对应的心率区间 最大摄氧量评估 最大摄氧量评价标准 最大摄氧量与马拉松成绩关系 备注:该表格是推算得到仅供参考 心肺耐力评 ...

  • 工作后发表sci论文有什么用

    工作后发表sci论文有什么用?发表sci论文作用还是比较明显的,可以提升个人工作能力,工资待遇,晋升职位,以及社会科技发展等都有相应积极的作用,此外工作后发表sci论文还有如下几点意义: 1发表sci ...

  • 如何撰写和发表sci期刊论文

    sci期刊论文具有超高的学术价值,不论是做科研交流还是个人晋升,sci期刊论文的作用和意义都是不同于其他论文的,sci期刊论文极高的学术价值让很多作者跃跃欲试,但sci期刊论文的发表难度是相当高的,如 ...

  • 建议收藏 | 8个模型,说透「数据思维」的底层逻辑

    诸葛君说:历时8周,8个模型更新完毕,有大家熟悉的传统模型,但是经过重新解读后我们又发现了一些新特性:也有用户行为数据分析特有的新模型,我们希望用人人都能懂的语言,让每一位互联网从业人员都学会数据分析 ...

  • 运营干货:互联网人必须知道的8个数据指标|建议收藏

    诸葛君说:最近一段时间,诸葛君收到许多读者的反馈,说在数据统计的过程中,很多数据指标并不理解是什么含义,给大家在数据分析时造成一定的困扰,比如:UV,PV,这些工作中经常用到的数据指标背后有哪些联系与 ...