非靶向代谢组学数据分析连载(原始数据预处理)
时间慢慢过去了,答应过的事情哭着也要做完,代谢组分析的全套,这次我来送给大家:目前对于使用代谢组发文的数量是越来越多了,真的是一目了然啊,2018年过半,文章的数量已经和2017年差不多了,势头很猛,早做打算不至于落的被动:
本次我带给大家的是非靶向代谢组学的数据,GC-MS比较老,测的人也比较多,数据库会比较全,当然数据量很大,处理起来会费劲,之前给大家分享的16s扩增子数据,otu.table里面OTU的数量是几千到几万不等,而非靶向代谢组学的数据往往是在几百到几千个峰,这里引用MetaboAnalyst的ppt为大家做一个做一个组学的数据量的简单比较:GenomicsDNA sequence100,000 - 1,000,000TranscriptomicsGene expression10,000 - 100,000ProteomicsProtein expression/ interaction1,000 – 10,000MetabolomicsCompound concentration100 – 1,000我要分享给大家的GC-TOF-MS非靶向代谢组学的数据的处理过程:这里我将直接向大家展示在公司测个的数据,也就是在这些操作完成后的数据(这些处理相比之后的数据分析可能并不重要,所以我可能在最后进行分享,或者就不分享了):使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。这份数据我在biotree测得,测定于2017年,分析是在今年上半年完成了,但是最为讲解使用数据,我将数据进行了一改动,是目前很新的一份sample供大家学习,打开是这样的;
这里我展示两组的数据,这批数据共展示了708个峰值,这里面的数值表示的是分面积值,第一行id表示的是化合物名称,在这一行这里主要有三种类型,第一种就是化合物的英文名称,第二中就是unknow表示完全不清楚了,第三种是Analyte是似乎有一定的概率匹配上数据库的,但是和数据库中相比相似度不够大,不能确定是什么物质,缺失值表明未能测出来;另外一份文件就是mapping,这是我处理16s数据延续下来的习惯,其实这样就不必在R中构造一个分组变量了,虽然我们这批数据量很小,对于新手来讲,可能更容易入手;
刚开始我们就需要这两份文件,在之后的分析过程中可能我会持续上传一些文件,还有一些需要使用的文件,我都会及时给出链接,方便大家下载使用;当然相应的R脚本我也会持续放给大家,都是经过多次测试的脚本,大家将文件全部下载下来,使用Rstudio打开脚本,只需要将工作路径更换,即可重现结果;下面是原始数据的百度网盘链接:链接:https://pan.baidu.com/s/1kYglqtN1puuCyXXi2k_P-Q 密码:170n如果失效,请及时留言下面我首先来讲这份数据的产生过程,大家在处理的过程中会更清楚一些:
经历过以上过程,我们就得到了一张表格:这份处理流程是我在biotree测定,也就是这份数据的处理流程:代谢物提取1. 转移样本于2mL EP管中,加入1mL提取液(甲醇水体积比=3:1),再加入10μL核糖醇,涡旋30s;2. 加入瓷珠,45Hz研磨仪处理4min,超声5min(冰水浴);3. 将样本4℃离心,13000rpm离心15min;4. 小心移取0.75mL上清液于2mL进样瓶(甲烷硅基化的)中;5. 在真空浓缩器中干燥提取物;6. 向干燥后的代谢物加入40μL甲氧胺盐试剂(甲氧胺盐酸盐,溶于吡啶20mg/mL),轻轻混匀后,放入烘箱中80℃孵育30min;7. 向每个样品中加入50μLBSTFA(含有1% TMCS, v/v),将混合物70℃孵育1.5h;8. 随机顺序上机检测。上机检测Agilent 7890气相色谱-飞行时间质谱联用仪配有Agilent DB-5MS毛细管柱(30m×250μm×0.25μm, J&WScientific, Folsom, CA, USA),GC-TOF-MS具体分析条件如下:表4. 仪器参数项目参数进样量(Sample Volume)1μL分流模式(Front Inlet Mode)Splitless Mode隔垫吹扫流速(Front Inlet Septum Purge Flow)3mL min−1载气(Carrier Gas)Helium色谱柱(Column)DB-5MS(30m×250μm×0.25μm)柱流速(Column Flow)1mL min−1柱箱升温程序(Oven Temperature Ramp)80°C hold on 1min, raised to 290°C at a rate of 10°C min−1, hold on 12min前进样口温度(Front Injection Temperature)280°C传输线温度(Transfer Line Temperature)295°C离子源温度(Ion Source Temperature)220°C电离电压(Electron Energy)-70eV质量范围(Mass Range)m/z:50-600扫描速率(Acquisition Rate)10 spectra per second溶剂延迟(Solvent Delay)8.06min数据处理使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。在本次实验中共检出了 708 个峰,详细情况请参见数据附表。这里有十二个样品,我们分析只做六个
质量控制1、过程质控样品的检测要持续很长时间,尤其是当样本量很大的时候。在检测过程中实时地监控仪器稳定性、信号是否正常就十分重要。及时发现异常,尽早将问题排除,以保证最终采集数据的质量。① 内标响应情况由图3可以看到内标核糖醇在样品中的保留时间和峰面积稳定性很好。说明仪器数据采集稳定性很好。
图3. 内标核糖醇的EIC图① 物质残留情况通过对空白样品的检测可以考察在检测过程中物质残留情况。从图4中可以看到空白样品中无显著峰检出,说明物质残留控制的很好。不存在样品间的交叉污染。
图4. 空白样品TIC图以上过程到最后我们得到一张表,都是由公司做的,如果要公司做后续的分析,会更贵,相比之下,我们研究生劳动力这么不值钱,我们自己倒确实会省钱,为了你的老板,赶快学技术吧!最后我们欣赏一下代谢通路美图吧!