蛋白质组学数据分析——(1)原理
转自 博客园
当前,关于高通量蛋白质组学的研究远不如NGS这般火热,网上关于这方面的知识也寥寥无几,从事这一行也有一段时间了,但还没好好总结过。加之过段时间可能要去做培训,所以是时候把知识点总结一下,权当复习。当然整个蛋白质组学研究也算纷繁复杂,不可能面面俱到,而且很多东西我也在学习当中,肯定会出现不少纰漏。毕竟这份笔记主要还是用于自我查漏补缺,要是在此之外还能帮到需要的朋友,也算善莫大焉了。
这一篇从原理开始讲起,后续会依次总结蛋白质组学鉴定、定量、注释、翻译后修饰、靶向等基础内容,当然最后也会讲到下游数据分析处理。
一、蛋白质组学概述
蛋白质组学是特定系统内蛋白质集合及其相互作用的研究。
蛋白质组研究本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识,这个概念是在1994年Marc Wilkins首次提出的。
为什么要研究蛋白质组学?
我想一句话就够了:蛋白质是生命活动的物质基础,是生命的执行者。
用业内通俗的话说解释各个组学的作用就是:基因组解释能发生什么?转录组解释将发生什么?蛋白组解释在发生什么?代谢组解释已发生什么?
蛋白质组学是后基因组时代的产物,作为中心法则的下游,其复杂程度远远超过基因组学。基因组的存在是相对稳定的,而细胞和细胞之间的蛋白质组则是随蛋白质和基因以及环境的生物化学反应而变化的。同一生物在生物体不同部位、生命的不同时期以及不同的环境中,具有不同的蛋白质表达。
人类基因组测序计划的完成并没有给人提供解开生命的密钥,科学家把兴趣转到蛋白质,希望通过蛋白质组的研究来进一步解开生命的本质。
二、质谱仪结构及原理
先看下面这张图,大致说明了蛋白质组学分析鉴定的流程。简单来说就是样本制备后分离进入质谱仪中,产出具有质荷比信息的实际谱图,再和数据库产生的理论谱图进行匹配打分,从而推断出蛋白信息。后续将会详解这一部分。
从上图我们可看出高通量蛋白质组学的研究离不开质谱仪,要想理解蛋白质组学数据分析原理,首先就要明白质谱仪的工作原理。
1.质谱仪的发展
质谱仪发展的几个标志性阶段:
上世纪初,JJ. Thomson发明第一台质谱仪;
40年代,质谱仪用于同位素测定和无机元素分析;
60年代,开始出现气相色谱-质谱联用仪应用于有机物分析;
80年代,以电喷雾、基质辅助激光解析电离为基础的液相色谱-质谱联用仪应用于蛋白质等生物大分子检测。
2.质谱仪结构
简单来说,质谱仪就是用来测定气态离子质荷比(m/z)的仪器。首先放个图,直观感受下质谱仪长啥样。嗯,我觉得比测序仪丑,但是价格却不比测序仪便宜。
质谱仪类型可分为无机质谱仪、同位素质谱仪、有机质谱仪、生物质谱仪。后两者用途比较广泛,用于蛋白质组学分析的质谱仪属于生物质谱仪,主要由以下几种结构组成。
1)进样系统
按物质形态,无非气体、固体、液体三种。按进样方式,有气体扩散进样、直接探针进样、色谱进样等。
2)离子源
离子源的作用是将被分析的样品分子电离成带电离子,并使其在光学系统作用下聚成一定形状和能量的离子束,然后进入质量分析器被分离。
离子源可分为硬源和软源,硬源离子化能量高,谱图复杂,可得到分子官能团信息;软源能量低,产生碎片少,谱图简单,可得到分子离子峰。常见硬软电离源如电子轰击电离源(EI)、化学电离源(CI)、场致电离源(FI)、场解析电离源(FD)、快原子轰击电离源(FAB)、大气压化学电离(APCI)、大气压光电离(APPI)、电喷雾电离(ESI)、基质辅助激光解析电离(MALDI)等等。
与GC串联的离子源有电子轰击电离源(EI)和化学电离源(CI),常用于代谢组学。与LC串联质谱的离子源有电喷雾离子化(ESI)、基质辅助激光解析电离(MALDI)大气压光电离(APPI)等,常用于蛋白质组学,也正是ESI和MALDI的发明获得了诺贝尔奖。
ESI采用强静电场(3-5KV),形成高度荷电雾状小液滴,经过反复的溶剂挥发-液滴裂分后,产生单个多电荷离子,电离过程中,产生多重质子化离子,主要用于LC-MS联用仪。
MALDI可使热敏感或不挥发的化合物由固相直接得到离子。波长为1250-775的真空紫外光辐射产生光致电离和解吸作用,获得分子离子和有结构信息的碎片,适于结构复杂、不易气化的大分子,并引入辅助基质减少过分碎裂。一般采用固体基质,基质样品比为10000/1。根据分析目的不同使用不同的基质和波长。
3)质量分析器
质量分析器是质谱仪的核心,将带电离子根据其质荷比加以分离,以便用于纪录各种离子的质荷比和丰度信息。通常不同类型的质量分析器组合会构成不同功能的质谱仪,这就是所谓的串联质谱。
目前最常用的质量分析器有:A.四级杆(Quadrupole);B. 飞行时间(time-of-flight,TOF);C. 离子阱(ion trap);D. 静电场轨道阱(Orbitrap)。
飞行时间质谱 (TOF),分析物的质荷比是根据分析物在真空飞行管中的飞行时间推算出的。飞行时间质谱的质量分析器由调制区、加速区、无场飞行空间和检测器等部分组成。通过离子源得到离子以后,离子经过一个加速的区域,所有的离子都会获得一个相同的初始动能,然后它们进入一个没有电场的区域,不同质量的离子具有不同的能量,重的离子飞行速度会慢一些,轻的离子飞得快一些,最终离子都会通过整个飞行区域,到达检测器。飞行时间是与质荷比的平方根成正比的,通过无场区的飞行时间长短不同,离子可以依次被收集检测出来。这种质量分析器结构简单、扫描速度快、灵敏度高、质量范围宽。TOF质谱仪的外表特点就是非常长,为了让离子能够尽可能跑得远一些。
四极杆 (Quadrupole, Q)由四根平行的棒状电极组成而得名。四根电极分成两组,两个相对的是一组,在相对的电极上加上一个相同的交流电压和直流电压,而在相邻的电极上,则加上相反的交流电压和直流电压,通过叠加交流电压和直流电压,不同质荷比的离子进入四级杆以后,会发生震荡,然后飞行转圈,当扫描的电压和频率一定的时候,只有特定质荷比的离子才能穿过四级杆。通过改变四级杆上的电压,我们可以让不同质荷比的离子依次穿过质谱仪,到达检测器。而其它质荷比的离子就会因为偏转太多,而打到四级杆上,或者从缝隙里穿出。这种质量分析器结构简单、体积小,仅用电场不用磁场,扫描速度快,特别适合液相色谱联机,分辨率不高,对高质量离子有质量歧视效应。四级杆质谱仪的外观结构比较紧凑。
离子阱(ion trap)与四级杆原理类似,因此也称四级离子阱,它的横截图跟四级杆质谱仪是一样的,只是它的侧面开了一个洞,来作离子弹出用的。四级杆质谱仪中,离子是穿过质谱仪飞出去的,而在离子阱质谱仪中,离子不会飞出质谱仪,而是一直在阱里面,沿着下图像8字型的轨迹飞行(阱指的就是陷阱,把离子包在里面一直转圈)。当扫描电压达到一定的数值以后,离子会被射出来。比四级杆灵敏度更高,质量范围大。离子阱分为线性离子阱和三维离子阱。线性离子阱具有更大的离子容量和扫描速度。也有人将静电轨道离子阱(Orbitrap)归并为离子阱的一类。
TOF只能检测不同质荷比的离子,却不能选择让哪些离子留下,而四级杆和离子阱既可以检测离子,同时也可以实现离子的选择,将想要的离子留在离子阱中,或者说让特定的离子穿过四级杆。所以四级杆或离子阱又叫质量过滤器,它可以过滤特定质荷比的离子。所以质量分析器其实包括两个部分,即质量过滤器和质量检测器。
Orbitrap的工作原理类似于电子围绕原子核旋转。由于静电力作用,离子受到来自中心纺锤形电极吸引力,由于离子进入离子阱之前的初速度以及角度,离子会围绕中心电极做圆周运动。通过傅立叶变换(Fast Fourier Transform, FFT),得到频谱图。因为共振频率和离子质量的直接对应关系,可以由此得到质谱图。
另外还有一类常用的是傅立叶变换离子回旋共振质量分析器(FTICR),基于在强磁场中,离子的回旋频率与离子质量成反比,所以测量离子的回旋频率可以获得其质量。它无需分离不同质荷比的离子,而是在同一时间内同时测量所有离子的质荷比和丰度,最大限度地利用全部离子的信息,所以分析灵敏度高。但是FTICR对真空度要求极高,同时强磁场需要庞大的超导磁铁产生,所以成本很高。
FTICR和Orbitrap都是是基于离子在场中回旋运动,通过测定回旋共振频率,并进行傅里叶变换,来测定离子质荷比,区别在于Orbitrap用的是电场,而FTICR用的是磁场,所以Orbitrap性价比高,应用更广。
4)检测器
如电子倍增器、闪烁检测器、法拉第杯、照相检测等。
5)其他
除此之外,还包括真空系统,使离子可以稳定地飞行,不受其它空气分子的干扰。计算机系统,实现质谱仪的控制和数据的采集。气体系统,气体供应和废气处理(氮气、氩气)。电力供应,UPS不间断电源系统。
3. 质谱仪参数
评估一台质谱仪的性能,通常有以下指标:
1)检测限
与三倍噪音相当的物质的量,可以理解为这是质谱仪能够检测到的最低含量化合物的浓度。通常会用利血平来作为一个标准的化合物测定质谱仪的检测限。
可以认为,灵敏度与检测限评估的是同一种性能。
2)线性范围
表示在什么样的浓度范围之内,质谱仪检测到的信号与样品浓度之间成线性的关系。也就是说在这个浓度范围内的样品用这台质谱仪检测是比较合适的,高于或低于这个浓度范围的样品,需要浓缩或者稀释后才能用这台质谱仪检测。
一般质谱仪的线性范围在3-6个数量级,即1,000—1000,000范围内。而大部分质谱仪在1000 – 10,000这个范围内。
这个参数的意义在于,当我们的样品在一个比较宽的浓度范围内时,如果质谱仪的线性范围非常好,就不需要浓缩低浓度的样品,也不需要稀释高浓度的样品,可以直接进样,这样就可以大大减少样品前处理的复杂程度,节省时间和实验步骤。
3)分辨率
即我们通常所说的高分辨质谱。
分辨率就是质谱仪可以分辨最靠近的两个质谱峰的质量差值。当两峰重叠部分的高度不超过任何一个质谱峰峰高10%时,一般认为这是两个可分离的峰,测定其中任何一个质谱峰的半峰宽(即峰高一半处的峰宽),然后用任何一个峰的质荷比除以半峰宽,就可以得到分辨率。
目前高分辨质谱仪的分辨率可以达到50,000-100,000的数量级,一般的四级杆可以达到5,000-10,000。
上图圈出的峰在低分辨率时只能观察到一个峰(一个化合物),随着分辨率上升可以看出,这其实是两个不同峰的峰,所以高分辨率能获得更全面的化合物信息。
4)质量准确度
指质谱仪测到的质荷比与它实际的质荷比的差值,除以它真实的质荷比与1,000,000的乘积。所以它是以ppm为单位的(百万分之一),这个数值看起来更方便。目前高分辨质谱仪质量准确度在2-5个ppm的范围之内。
质量准确度高,可以大大减少候选化合物的数量,提高鉴定的成功率。
分辨率与质量偏差分别评估了质谱仪的精密度与准确性,通常希望两者都高。就像我们打靶,比如打靶,若每一次都打在不是靶点的同一个点,说明精密度非常高,但准确性却比较差;若每次打的点很分散,但平均起来的位置刚好在靶心,则说明质量准确性还可以,但精密度比较差。
目前我们能用到的高分辨质谱仪,不管是QTOF或者Orbitrap系列,都可以达到50,000以上的分辨率,同时也可以达到2-3ppm的质量准确性。下图是目前常用质谱仪的重要参数比较:
对于蛋白质组学研究来讲,我们对质谱仪器性能的最低要求是:分辨率至少在40,000-50,000,质量准确性应该优于5ppm,质量扫描范围应该在100-3,000,扫描速度是每秒至少获得一张高分辨的一级谱图和十张高分辨的二级谱图。
4. 串联质谱仪
串联质谱(MS/MS)就是将相同或者不同的质谱仪串联起来,实现串联或者并联工作。这样做一是为了产生二级碎片离子,二是实现不同质谱仪性能的优势互补。
常见的串联质谱有:
三重四级杆(Triple Quadrupole),或者串联四级杆,就是把三个四级杆串联起来,这样做的主要目的是为了实现二级质谱的扫描。
四级杆和飞行时间质谱仪串联到一起,就是我们经常听到的Q-TOF,它实际上是为了提高二级质谱的分辨率。
Orbitrap与四级杆/离子阱组合,比如Orbitrap Fusion,Orbitrap Elite等组合。
下面,用三重四级杆的例子来说明串联质谱仪是如何获得二级碎片离子的。
第一个四级杆Q1开启质量选择模式,它让特定质荷比的离子穿过质谱仪,而把其它的离子都甩掉(甩到四级杆上或者四级杆的空间当中去)。当特定的离子被选择好后(称为母离子,precursor ion),会进入碰撞池Q2(collision cell,用来碎裂离子)。在碰撞池里通常入口电压会高于出口电压,当母离子进来以后,通过电压差的作用加速,然后与碰撞池里的氦气或氮气分子发生碰撞、碎裂,形成碎片离子(fragment ions,也称子离子)。最后,这些碎片离子进入第三个四级杆Q3中进行二级的扫描,得到二级质谱图。
其他的串联质谱运行大体是一样的。
Q-TOF,Bruker生产,Q1四级杆,Q2碰撞池,Q3飞行时间质谱仪。这里用了一个反射模式飞行(让离子拐个弯再飞回来),让离子在更短的空间内可以飞得更远一些。
Orbitrap系列,如Q Exactive质谱仪,Q1也是一个四级杆,Q2是碰撞池,Q3是被一个Orbitrap所取代。
Orbitrap Elite,Q1离子阱,Q2碰撞池,Q3为Orbitrap。
Orbitrap Fusion,Q1四级杆,Q2离子阱,Q3为Orbitrap,同时还有一个碰撞池,整体是一个非常复杂的结构。它的特点是Orbitrap与离子阱可以同步进行扫描(一般质谱仪的两个质量检测器是不能同时扫描的,只能一个做质量检测,一个做质量过滤),所以扫描速度会更快,性能也更好。Fusion的分辨率可达到240,000 – 960,000。
三、蛋白质组学的鉴定原理
蛋白质组学鉴定常用基于二维凝胶电泳和基于质谱两种方法。
1.基于二维凝胶分离 (2D-Gel)鉴定
这是传统蛋白质组学鉴定方法。大致原理是2D-Gel根据蛋白的等电点和分子质量的差异,通过等点聚焦和SDS-PAGE分离,通过染色和成像把不同电性和大小的蛋白质显示在凝胶上。
具体来说,就是利用聚丙烯酰胺凝胶(SDS-PAGE)电泳的电荷效应和分子筛效应,使之凝胶电泳迁移率与所带的电荷多少以及分子大小都有关,电荷越多跑得越快,分子越小跑得越快。
这是蛋白质组学湿实验常用鉴定方法,不是我们关注的重点。当然在基于质谱技术进行蛋白质鉴定前,也常常用这种方法来进行分离预处理。
2.基于质谱(MS)鉴定
1)鉴定大致流程
常规的蛋白质谱鉴定路线有这么几个步骤:
样本制备:细胞、组织、血液;蛋白复合体;特异修饰蛋白(如磷酸化、糖基化、泛素化等);
样本分离:1-D gel;2-D gel;LC(liquid chromatograph);
质谱分析:如MALDI-TOF、ESI-MS等;
数据库搜索:Sequest;Mascot;MaxQuant等;
数据分析:R、Linux、Perl、Python等。
2)色谱分离
色谱/层析(chromatography)是一种分离复杂混合物中各个组分的有效方法。它是利用不同物质在由固定相和流动相构成的体系中具有不同的分配系数,携带样品的流动相穿过固定相时,由于样品各组分理化性质存在差异,与固定相作用力弱的组分,移动速度快;反之,移动速度慢。根据不同的保留时间,收集特定属性的样品进行进一步分析。色谱有多种,可以按固定相类型和分离原理进行分类,根据流动相的不同可分为气相色谱和液相色谱。
根据相互作用类型的不同,色谱法可分为吸附色谱法:物理吸附法,分配色谱法,离子交换色谱法,尺寸排阻色谱法,亲和色谱法等等。目前,在蛋白质组学研究中,用得最多的就是分配色谱法,就是根据样品在固定相与流动相之间溶解度的差异来实现多肽或蛋白的分离。实际上是利用了多肽或蛋白疏水性上的差异。
液相色谱仪主要由以下4个部分组成:
色谱柱:玻璃柱+固定相
流动相输送系统:色谱柱填料很细,只有一点几微米到几微米,需要用一个泵来把流动相挤压下去。所以液相色谱要配一个泵系统,来输送流动相。
进样系统:用密封的系统需要一个自动进样器来完成。
检测系统:现在常用的有紫外或荧光,最简单的就是用肉眼来观察是否有样品流出。
上图左边是戴安的液相色谱仪,从上往下依次是泵系统、进样系统、柱系统和检测系统,右边是Waters的液相色谱仪,也是类似的结构。
对于蛋白质组学领域,常用的液相色谱仪是纳升液相色谱,其特点是色谱柱细,流速慢,减少样品被流动相稀释的倍数,从而提高检测的灵敏度。
高效(高压/高速)液相色谱(high performance liquid chromatography, HPLC)是目前很常用的一种液相色谱方法。其流动相为液体,在高压作用下快速流过固定相,分离效能高,灵敏度高,应用范围广,柱子可反复使用。最早洗脱出的是越亲水的。
3)液质联用技术
对于蛋白质组学研究来说,液相色谱和质谱是不能单独工作的,它们必须联机工作,才能实现对蛋白质的检测。
液相色谱仪是在常温常压下工作的,柱子是放在空气中运行的,而且样品是溶解在流动相(水或有机溶剂)当中的。而质谱仪需要在真空环境下工作,样品需要从溶液状态转化为气态,而且需要被电离。所以总的来说,我们需要一个电离源,能把样品从常温常压的液相状态直接变成真空中的气态离子状态。
电离源要实现的功能有三个:一是去溶剂和气化,把样品中的溶剂去掉,将待检测的多肽分子变成多肽的气态分子;二是将多肽的气态分子离子化,让它们带上电荷;三是把多肽的气态离子送到真空当中。
电喷雾电离(ESI)实现了这些,具体过程是这样的:样品首先通过一个毛细管喷针被喷出来,进入质谱仪,而在喷针的外面,会用一个鞘气(sheath gas)来辅助样品的雾化。对鞘气进行加热,当加热的鞘气吹到样品中或者溶液中时,溶液中的流动相或者溶剂就会挥发,就会剩下气态的离子。同时,在毛细管喷针尖端与质谱仪的入口之间,还会加一个电压,叫High voltage,对这些待电离的分子,首先溶剂挥发掉,然后分子被气化,最后在电场的作用下,分子就会变成离子,实现电离的过程。最后,这些离子会被质谱仪入口处的真空抽到质谱仪里,同时被电场驱动进入质谱仪。于是,就实现了气化、电离以及真空过渡三重需求。这就是液相色谱与质谱的接口,即ESI电喷雾电离。
简单来说,色谱用来分离化合物,质谱用来分析纯物质的结构。
3.蛋白质组学分析策略
1) Bottom up
目前蛋白质组学分析应用最广的方法。也是我们所说的“鸟枪法(shotgun)”,此处的“bottom”指的是肽段,“up”则是由肽段推理为蛋白的过程。即先将蛋白酶解成肽段,然后通过色谱分离肽段混合物,再用质谱技术将肽段碎裂,根据碎裂谱图的离子峰信息进行数据库搜索来鉴定肽段,最后将鉴定的肽段进行组装、重新归并为蛋白。
该方法技术发展成熟,相关的软件工具及算法都比较多,适合分析复杂样本。缺点是蛋白序列覆盖度不完整,据说覆盖度仅10%-20%。这就导致氨基酸序列高度相似的蛋白质变体(proteoform)推理不准确,而且由于是逆向组装蛋白,不适合进行翻译后修饰的检测。
2) Top down
这里的“top”指的是完整蛋白质分子的质量测定,“down”则是指对完整蛋白的碎裂。无需酶解,通过完整蛋白质的质量及其碎裂谱图信息可以实现真正意义上的蛋白质鉴定,序列覆盖度高(号称100%),能保留多种翻译后修饰之间的关联信息。但是该方法通量较低,不适合分析复杂样本,在完整蛋白质分离、质谱分析、生物信息学等各方面的技术相对也不完善。
蛋白质谱原理暂时介绍到这里,主要还是介绍质谱仪的相关常识,下篇笔记将重点介绍基于串联质谱以及bottom up方法的蛋白质组学鉴定分析流程。
Ref:
ps:文中部分图片来自来自中国农业大学生物学院的李溱老师
http://www.crickcollege.com/news/179.html
http://www.crickcollege.com/news/220.html
http://www.crickcollege.com/news/222.html
http://www.crickcollege.com/news/233.html
https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
https://wenku.baidu.com/view/85e9bbe9a5e9856a571260a0.html