非靶向代谢组学数据分析连载(原始数据预处理)

时间慢慢过去了,答应过的事情哭着也要做完,代谢组分析的全套,这次我来送给大家:目前对于使用代谢组发文的数量是越来越多了,真的是一目了然啊,2018年过半,文章的数量已经和2017年差不多了,势头很猛,早做打算不至于落的被动:

本次我带给大家的是非靶向代谢组学的数据,GC-MS比较老,测的人也比较多,数据库会比较全,当然数据量很大,处理起来会费劲,之前给大家分享的16s扩增子数据,otu.table里面OTU的数量是几千到几万不等,而非靶向代谢组学的数据往往是在几百到几千个峰,这里引用MetaboAnalyst的ppt为大家做一个做一个组学的数据量的简单比较:GenomicsDNA  sequence100,000  - 1,000,000TranscriptomicsGene  expression10,000  - 100,000ProteomicsProtein  expression/ interaction1,000  – 10,000MetabolomicsCompound  concentration100  – 1,000我要分享给大家的GC-TOF-MS非靶向代谢组学的数据的处理过程:这里我将直接向大家展示在公司测个的数据,也就是在这些操作完成后的数据(这些处理相比之后的数据分析可能并不重要,所以我可能在最后进行分享,或者就不分享了):使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。这份数据我在biotree测得,测定于2017年,分析是在今年上半年完成了,但是最为讲解使用数据,我将数据进行了一改动,是目前很新的一份sample供大家学习,打开是这样的;

这里我展示两组的数据,这批数据共展示了708个峰值,这里面的数值表示的是分面积值,第一行id表示的是化合物名称,在这一行这里主要有三种类型,第一种就是化合物的英文名称,第二中就是unknow表示完全不清楚了,第三种是Analyte是似乎有一定的概率匹配上数据库的,但是和数据库中相比相似度不够大,不能确定是什么物质,缺失值表明未能测出来;另外一份文件就是mapping,这是我处理16s数据延续下来的习惯,其实这样就不必在R中构造一个分组变量了,虽然我们这批数据量很小,对于新手来讲,可能更容易入手;

刚开始我们就需要这两份文件,在之后的分析过程中可能我会持续上传一些文件,还有一些需要使用的文件,我都会及时给出链接,方便大家下载使用;当然相应的R脚本我也会持续放给大家,都是经过多次测试的脚本,大家将文件全部下载下来,使用Rstudio打开脚本,只需要将工作路径更换,即可重现结果;下面是原始数据的百度网盘链接:链接:https://pan.baidu.com/s/1kYglqtN1puuCyXXi2k_P-Q 密码:170n如果失效,请及时留言下面我首先来讲这份数据的产生过程,大家在处理的过程中会更清楚一些:

经历过以上过程,我们就得到了一张表格:这份处理流程是我在biotree测定,也就是这份数据的处理流程:代谢物提取1.  转移样本于2mL EP管中,加入1mL提取液(甲醇水体积比=3:1),再加入10μL核糖醇,涡旋30s;2.  加入瓷珠,45Hz研磨仪处理4min,超声5min(冰水浴);3.  将样本4℃离心,13000rpm离心15min;4.  小心移取0.75mL上清液于2mL进样瓶(甲烷硅基化的)中;5.  在真空浓缩器中干燥提取物;6.  向干燥后的代谢物加入40μL甲氧胺盐试剂(甲氧胺盐酸盐,溶于吡啶20mg/mL),轻轻混匀后,放入烘箱中80℃孵育30min;7.  向每个样品中加入50μLBSTFA(含有1% TMCS, v/v),将混合物70℃孵育1.5h;8.  随机顺序上机检测。上机检测Agilent 7890气相色谱-飞行时间质谱联用仪配有Agilent DB-5MS毛细管柱(30m×250μm×0.25μm, J&WScientific, Folsom, CA, USA),GC-TOF-MS具体分析条件如下:表4. 仪器参数项目参数进样量(Sample Volume)1μL分流模式(Front Inlet Mode)Splitless Mode隔垫吹扫流速(Front Inlet Septum Purge Flow)3mL min−1载气(Carrier Gas)Helium色谱柱(Column)DB-5MS(30m×250μm×0.25μm)柱流速(Column Flow)1mL min−1柱箱升温程序(Oven Temperature Ramp)80°C hold on 1min, raised  to 290°C at a rate of 10°C min−1, hold on 12min前进样口温度(Front Injection Temperature)280°C传输线温度(Transfer Line Temperature)295°C离子源温度(Ion Source Temperature)220°C电离电压(Electron Energy)-70eV质量范围(Mass Range)m/z:50-600扫描速率(Acquisition Rate)10 spectra per second溶剂延迟(Solvent Delay)8.06min数据处理使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。在本次实验中共检出了 708 个峰,详细情况请参见数据附表。这里有十二个样品,我们分析只做六个

质量控制1、过程质控样品的检测要持续很长时间,尤其是当样本量很大的时候。在检测过程中实时地监控仪器稳定性、信号是否正常就十分重要。及时发现异常,尽早将问题排除,以保证最终采集数据的质量。①  内标响应情况由图3可以看到内标核糖醇在样品中的保留时间和峰面积稳定性很好。说明仪器数据采集稳定性很好。

图3. 内标核糖醇的EIC图①  物质残留情况通过对空白样品的检测可以考察在检测过程中物质残留情况。从图4中可以看到空白样品中无显著峰检出,说明物质残留控制的很好。不存在样品间的交叉污染。

图4. 空白样品TIC图以上过程到最后我们得到一张表,都是由公司做的,如果要公司做后续的分析,会更贵,相比之下,我们研究生劳动力这么不值钱,我们自己倒确实会省钱,为了你的老板,赶快学技术吧!最后我们欣赏一下代谢通路美图吧!

(0)

相关推荐

  • 单细胞数据分析(一折起)

    不知道有多少朋友还记得我们两年前(2019年底)的单细胞数据分析报价:单细胞转录组数据分析大放价 (疫情期间不打烊),底裤价 2000人民币 一个10X的单细胞转录组样本数据分析.是当时的最低价,有意 ...

  • 综述| ANAL CHEM:代谢组学分析流程的最新进展

    编译:柿子,编辑:谢衣.江舜尧. 原创微文,欢迎转发转载. 导读 生物学研究范式正在从"假说-对选定变量进行精准定量检测验证"的还原论方法到"组学"技术转变,& ...

  • 综述|欲了解代谢组学及其在心血管疾病中的应用,此文足矣!

    本文由George编译,董小橙.江舜尧编辑. 原创微文,欢迎转发转载. 导读 在人的一生中,心脏跳动约25~40亿次.然而,尽管心脏一天水解掉它质量20倍的ATP,确只储存了跳动所刚好足够的能量.心脏 ...

  • 【直击痛点】代谢流组学分析技术难点拆解

    为了深入了解细胞代谢过程,我们采用各种组学工具包括基因组学.宏基因组学.转录组学.蛋白质组学和代谢组学进行分析.但由于这些组学技术目前无法充分反映转录后调控.酶活性及细胞过程.于是提出了代谢流组学(F ...

  • Nature Protocols:血浆EVs的蛋白质组学和代谢组学实验步骤

    细胞外囊泡(EVs)越来越被认为是细胞间通讯的重要载体,并且是生物标记物发现的有希望的来源.由于蛋白质翻译后修饰(post-translational modifications, PTM)的状态(例 ...

  • 代谢组学技术问答(下)

    该内容由"麦特绘谱"提供,已授权. 1 用串联质谱用于生物标志物的鉴定的话,谱图吻合度多高可以确认? 不管是串联质谱还是时间飞行质谱,没有标准品物质的保留时间和质谱信息的鉴定都是不 ...

  • 代谢组检测平台怎么选择?

    目前代谢组主要有以下三种检测方法:液相色谱-质谱联用技术(LC-MS).气相色谱-质谱联用技术(GC-MS).核磁共振技术(NMR).可以根据经费.物质性质.实验.样本类型.研究目的等方面,综合考量平 ...

  • 认识免疫组库测序数据

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • 代谢数据不会分析?用这个网站就够了

    目前组学的数据越来越多.其中代谢组学也是其中一个热点.关于代谢组学的相关分析目前用的最多的还是MetaboAnalyst (https://www.metaboanalyst.ca/) .之前这个数据 ...

  • 10X单细胞转录组的测序数据量这么少是为什么

    最近读到发表在nature medicine杂志的文章<Immune profiling of human tumors identifies CD73 as a combinatorial t ...

  • 代谢组学技术问答(上)

    该内容由"麦特绘谱"提供,已授权. 1 如何获得高质量GC/MS代谢组学数据? 实验设计先不谈,在仪器分析阶段,若想获得高质量数据,有以下几个方面需要注意. 1)前处理方法的一致性 ...