科研 | PNAS:通过下一代测序技术体内mRNA展示技术使大规模的蛋白质组学测序成为可能
编译:苑志宇,编辑:Emma、江舜尧。
原创微文,欢迎转发转载。
大规模蛋白质组学方法对于天然细胞中蛋白质的功能表征至关重要。但是,蛋白质组学在可扩展性,标准化和成本方面远远落后于基因组方法。在这里,我们介绍了体内mRNA展示技术,该技术将多种蛋白质组学应用程序转换为DNA测序结果。体内表达的蛋白质通过高亲和性茎环RNA结合结构域相互作用与它们的编码信使RNA(mRNA)耦合,从而可以通过下一代DNA测序以高灵敏度和特异性进行蛋白质的高通量鉴定。我们已经生成了酿酒酵母蛋白质组的高覆盖率体内mRNA展示文库,并展示了其表征亚细胞定位和在其天然细胞内表达的蛋白质相互作用的潜力。体内mRNA展示文库有望克服基于质谱的蛋白质组学的局限性,并利用大幅度提高的DNA测序成本和通量来系统地表征天然功能性蛋白质组。
论文ID
实验设计

实验结果
1. 体内mRNA展示技术用于蛋白质鉴定
为了证明体内mRNA展示技术,我们产生了一种游离表达的诱导型构建体,表示为MCP-开放阅读框(ORF)融合体。这种融合包括短的多肽纯化标签,然后是19-nt茎环的单个拷贝,这样,翻译后,融合产物会与其编码的mRNA结合(图1A)。转化后,每个菌株都包含一个单独物种的体内mRNA展示结构,该结构对应于一个单独显示的蛋白,独立于文库中的其他物种与其细胞环境相互作用(图1B)。诱导的细胞可以根据所需的生化分析(例如,诱饵的免疫沉淀)进行分析,这应保留RNA与蛋白质的相互作用(图1C)。每个ORF序列的富集或缺失可以通过比较分析前后在分离的RNA中的丰度来定量。
为了证明mRNA展示技术蛋白与其编码mRNA稳定相互作用的倾向,我们构建了一套表达MCP荧光蛋白融合体的菌株。使用特异性识别每种构建体的磁珠对每种融合蛋白进行免疫沉淀(图1D)。靶蛋白的免疫沉淀(IP)相对于输入的裂解物,通过天然管家mRNA的RT-PCR测定,其自身鉴定的mRNA相对于输入的裂解物富集了八倍(P <0.01)。相反,有缺陷的外壳蛋白构建体MCP *(N55D,K57E)在纯化后未显示其各自mRNA的富集。同样,删除下游茎环也会删除富集。
接下来,我们评估了在存在其他展示蛋白的情况下分离展示蛋白-mRNA复合物的精度。将两种体内展示构建体共转化为酵母,一种表达GFP,另一种表达融合mCherry,会导致混合的酵母细胞群体相互表达。如预期的那样,当使用混合群体中的抗GFP磁珠纯化GFP时,mCherry与GFPmRNA显著富集(图1E)(约11倍,P = 0.001),RFP则相反(约5倍,P = 0.016)。因此,我们能够通过相互比较mRNA水平的富集,在一对一竞争测定中正确鉴定体内mRNA展示技术的蛋白。

图1 使用体内mRNA展示技术和NGS的高通量蛋白质组学
(A)与目标基因融合的N端MS2外壳蛋白与存在于其编码mRNA的3'非翻译区(UTR)上的RNA茎环结合。(B)酵母ORFeome的体内mRNA展示文库由菌株的混合种群组成,每个菌株均表达一个与其自身天然细胞环境相互作用的单独展示的蛋白质,而与其他文库物种无关。(C)以RNA测序为读数的蛋白质组分析。从体内mRNA展示提取物对给定诱饵进行共纯化分析的方案,从而从纯化的和输入的裂解物中加工RNA。通过比较两个样品中每个显示的mRNA的RNA读取频率来检测潜在的相互作用子。(D)对于给定的以ACT1作为参照管家(HK)基因的构建体,使用qPCR计算与裂解物相比,纯化蛋白的展示mRNA的Log2倍富集。两种体内展示构建体(MCP-mCherry,MCP-GFP)与有缺陷的外壳蛋白构建体(MCP*-mCherry,MCP*-GFP)表现出显着的相对富集(P = 0.002,P = 0.009,单向ANOVA)。(E)来自混合构建体群体(MCP-mCherry和MCP-GFP)的纯化蛋白的展示mRNA的Log2倍富集,用于抗RFP和抗GFP纯化。相对于输入的裂解物,每种特异性蛋白质的mRNA种类相对于非特异性种类而言更为丰富(RFP-IP:P=0.016;GFP-IP:P=0.001,t检验)。对于所有纯化,针对RFP,GFP和α-Tubulin的经裁剪的Western印迹图像均显示在左侧。生物复制品用灰色点表示;条形代表平均信号;** P<0.01,* P <0.05。
2. 体内mRNA展示技术的高通量蛋白质鉴定判别能力
为了系统地确定体内mRNA展示技术的敏感性和特异性,我们构建了三个体内展示文库的混合物,这些文库由数百种不同的酿酒酵母蛋白组成。每个文库带有不同的C末端纯化标签(FLAG,MYC和HIS),并转化为单倍体酵母菌株。纯化标签用于特异性分离每种蛋白质亚群。
为了量化每个显示的ORF的频率,我们设计了与NGS兼容的测序预备方案。简而言之,从起始和纯化的蛋白质样品中分离RNA。利用位于每个构建体ORF侧翼的通用序列来处理文库mRNA,并将Illumina衔接子添加到与每个ORF的5'和3'末端相对应的片段中,从而使我们能够以最少的读取次数来量化频率。将起始样品中片段的频率与分离蛋白样品中的频率进行比较,并标准化为非特异性功能性对照的频率。非特异性功能对照是一组显示其mRNA但未在给定测定中分离的构建体。对于每个ORF,我们计算了一个相对富集度,称为展示得分(DS)。另外,从非特异性功能对照的分布中计算出每个ORF的DS的z值和显着性值。
由于未结合的MCPs和茎环在裂解后可以自由地与非特异性伴侣相互作用,因此它们可能会影响精度。因此,为了滴定任何非特异性相互作用,我们提供了过量的外壳蛋白。此外,裂解和所有纯化步骤均在4°C下进行,以最大程度地降低由于在较高温度下mRNA和MCP可能解离而导致伴侣交换的可能性。
如预期的那样,当使用抗FLAG柱从混合群体中纯化带有FLAG标签的蛋白时,我们观察到相对于裂解物,纯化样品中FLAG文库中的ORF mRNA大量富集(图2A),而带有MYC和HIS标签的库中的ORF未富集。我们对混合群体中的每个标签进行了三个单独的纯化,并对每个文库中ORF的DS进行了定量(图2B和C)。我们将每个ORF的DS用于将蛋白质归类为免疫沉淀群体的成员,从而导致图2C中的受体工作曲线。曲线下面积的高值(FLAG,MYC和HIS的AUC;AUC分别为0.98、0.96和0.77)(图2C)表明,体内mRNA显示分类蛋白到正确的人群,同时保持较低的水平假阳性率。尽管所有三种方法均显示出较高的鉴别能力,但FLAG和MYC纯化的性能优于HIS,这表明在基于固定的金属亲和色谱法分离组氨酸标签的蛋白质过程中的背景值更高。

图2 体内mRNA展示技术可在复杂混合物中精确鉴定蛋白质
(A)通过鉴定特定蛋白质亚群来评估体内mRNA显示精度。来自含有HIS标记(黄色),MYC标记(绿色)和FLAG标记(蓝色)酵母体内mRNA展示构建体的混合群体的抗FLAG免疫沉淀。散点图,用于相对于纯化样品(y轴)的裂解物(x轴)进行对数标准化读取。通过非特异性功能对照的平均值将每个样品的读数标准化。对于每个人口,介于第10个百分点和第90个百分点之间的区域将使用相应的颜色进行阴影处理。(B)用于抗FLAG,抗MYC和抗HIS纯化的DS箱图。显示的是每个亚群和非特异性功能对照(nsf)的DS的箱形图。框从较低的四分位数到较高的四分位数值延伸,而晶须从框的边缘延伸四分位数间距的1.5倍,离群值显示为单个点。(C)B中纯化的接收者操作特征曲线。根据各自的DS对混合文库的成员进行分类。(D)酵母体内mRNA展示文库纯化。在四个生物学重复中,每个基因计算了3,300个ORF的平均DS。显示的是与非特定功能控件集相比的库中ORF的箱形图。(E)用于酵母文库纯化的DS的火山图。相对于非特异性功能对照(SI附录)计算P值(使用Benjamini-Hochberg校正计算的q值)。(F)两次重复之间DS的散点图(报告了皮尔森相关性)。(G)每个基因本体论生物学过程类别中具有显着和不显着(n.s.)DS的体内mRNA展示蛋白的百分比。
3. 用于酵母蛋白质组学探索的体内mRNA展示文库
接下来,我们建立了酵母ORFeome的体内展示文库,用于高通量蛋白质组学探索。从编码约4,700种已验证的酵母蛋白的质粒ORFeome库开始,我们汇集了ORFs,并使用Gateway克隆系统将其引入了体内mRNA展示骨架。我们将所得的合并文库转化为BY4742 S288c Matα菌株。为了评估每个蛋白有效显示其编码mRNA的总体能力,我们利用6xHIS标签从文库裂解物中纯化蛋白质组。与所有融合文库一样,捕获相互作用的能力受限于正确的蛋白质折叠,任何功能域的正确定位以及这种方法的限制,即外壳蛋白域有效结合茎环的能力。我们将6xHIS标签用于文库构建,以便在需要更具体的标签来纯化细胞复合物时保留其他标签以用于将来的功能测定。由于组氨酸标签纯化相对于其他标签具有相对较弱的富集结合RNA的能力(图2C),因此我们期望这种检测方法会低估展示效率。总体而言,构建的酵母体内展示文库捕获了约3,400种蛋白质,这些蛋白质在四个重复样本中始终存在于裂解液或纯化的样品中(图2D)。相对于非特异性功能对照,我们对每个重复序列进行了小于500万次读取的测序,并计算了相对于裂解物的纯化样品中每个ORF的DS;与非特异性功能对照相比,分析中捕获的ORF的73%具有显着的展示富集分数(平均DS>0.5;Mann-Whitney U检验,Benjamini-Hochberg校正的q值<0.05)(图2E)。DSs在多个重复中具有可重复性重复复制(rspear=0.76至0.89)(图2F)。总体而言,有效展示自身mRNA的酵母蛋白涵盖了广泛的生物学过程,功能和单元相似物(图2G)。
4. 体内mRNA展示技术保留蛋白质组的天然细胞器定位
我们想知道,尽管它们的游离基因过表达,与外壳蛋白融合以及与它们的同源mRNA结合,但体内展示的mRNA是否仍保留其天然的亚细胞区室化。为了测试这一点,我们进行了亚细胞分离实验,以分离位于特定细胞区室中的蛋白质。特别地,我们进行了粗线粒体纯化,从而用一次性匀浆器破坏了诱导的体内展示文库原生质球,并通过一式三份的差异离心法富集了一部分。通常使用这种粗线粒体分级分离方法,因为它速度快且不需要大量的起始原料,尽管已知它富含其他细胞器的蛋白质和膜。因此,我们从最后的离心步骤的上清液和沉淀的样品中分离并测序了RNA。我们计算了DS得分,比较了两个部分之间存在于我们测定中的每种mRNA显示物种的读取频率。例如,线粒体外膜蛋白TOM70和孔蛋白POR1和POR2的mRNA与非特异性对照(z评分分别为4.7、4.3和5.9)以及内膜蛋白COX7和TIM23(z分数分别为5.8和6.0)和线粒体基质蛋白IDH1和PUT1(z分数分别为3.9和4.1)。另一方面,胞质蛋白LEU2(z评分=0.4),MPE1(z评分=0.5),ASN2(z评分=0.8)和SAM2(z评分=0.8)的体内展示mRNA没有显着富集。细胞器部分(图3A)。基因本体论(GO)术语富集分析表明,DS指示预期细胞器中的蛋白质成员(AUC=0.74,AUPRC=0.77)(图3B)。通常,与胞浆蛋白相比,已知定位于线粒体的蛋白出现沉淀的可能性要高三倍(P <10-18)(图3C-E)。我们的分析表明,线粒体外膜蛋白(×4.7;P<10-8)和内膜蛋白(×3.5;P<10-10)都显著富集(图3C)。如预期的那样,内质网(ER),高尔基体和脂质颗粒相关蛋白在沉淀中的显着展示可能性是其的四倍以上。同样,正如预期的那样,已知定位于细胞质和细胞核的蛋白质被大量消耗(分别为P<10-20和P<10-19)。

图3 体内mRNA展示技术可捕获天然蛋白质定位
(A)显示粗线粒体分离中单个mRNA富集的z得分。重复用圆圈表示,而平均值报告为水平线。相对于非特异性功能(nsf)对照计算z得分。(B)粗线粒体分离的接收器工作特性和精密回收曲线。图书馆成员根据其各自的DS进行分类,并与GO术语隔间类别进行比较。计算真实阳性率(TPR),错误阳性率(FPR)和错误发现率(FDR)。报告曲线下面积(AUC)和精确召回曲线下面积(AUPRC)值。(C–E)每个(C)GO词条分类,(D)定位分类(58)和(E)高通量(HT)线粒体研究中具有显着和不显着(ns)DS的体内mRNA展示蛋白的百分比。粗线粒体富集的特定类别以红色显示,而胞质和核部分则以灰色显示。细胞器和膜蛋白显着富集,而胞质蛋白却被耗尽(P值的超几何检验,P值无显着性标记为ns)。
5. 体内mRNA展示技术可准确发现体内PPI
绘制PPI网络的图谱一直是后基因组生物学的主要挑战。我们旨在确定体内mRNA展示是否可用于有效识别目标蛋白的体内相互作用伙伴。因此,我们通过将我们的单倍体体内展示MATα库与表达目标蛋白诱饵的MATa菌株配对,生成了用于系统PPI分析的库。蛋白诱饵与C端GFP表位标签融合在一起,从而实现了有效的IP。诱导和均质化后,我们将裂解液中的RNA读数与使用抗GFP磁珠纯化的样品进行比较,并计算出相应的DS。我们选择研究两种蛋白质的相互作用伴侣:SAM2,一种高度表达的S-腺苷甲硫氨酸合成酶,以及ARC40,它是Arp2/3复合物的成员,它是肌动蛋白成核中心,在运动性和完整性中起关键作用肌动蛋白补丁。我们为每个SAM2-和ARC40-GFP诱饵生成了两个文库,其中一个融合蛋白整合到基因组中,并由天然启动子驱动,而另一个则是游离表达和可诱导的。此外,我们生成了两个对照文库,其中包含不与任何其他肽融合的诱导型GFP,或不包含诱饵的无效文库。我们重复测试了每个描述的库。
对于给定的诱饵(SAM2或ARC40),如果相应ORF的mRNA在相应样品中富集(平均DS>2,q值<0.001),则我们认为文库蛋白是PPI命中的(图4A-C)与裂解物相比但在对照样品中未富集(q值>0.05)。对于SAM2,我们发现了两个命中:SAM2本身(DS=4.8,q值=6×10-4)和它的对数SAM1(DS=4.4,q值=6×10-4)(图4A和D)。实际上,在传统的亲和捕获-质谱(MS)研究中,据报道SAM2与它的旁系同源物相互作用,并且据预测Y2H可以与其自身相互作用。另一方面,ARC40的命中点是同一复合体(62)的成员:ARC19(DS=3.9,q值=1×10-5),ARC35(DS=3.7,q值=1.1×10-5),以及ARC18(DS=3.3,q值=1.3×10-5)(图4B和E)。ARC40与ARC19,ARC35,ARC18,ARC15,ARP2和ARP3形成一个七个子单元的复合体。在我们的测定中,ARP2仅适度富集(DS=0.55,q值=0.006),而纯化的ARC40样品中ARP3不富集。ARC15在我们的图书馆中不存在,因此无法进行评估。
我们进行了亲和捕获,然后用串联质谱进行了液相色谱分析,以使用与体内展示实验相同的样品来验证我们的结果。我们证实,SAM1与SAM2是共纯化的,而ARC40样品如预期的那样富含ARP2/3复杂亚基(图4F)。此外,我们发现ARC40样品中富含肌动蛋白相关蛋白MYO3,MYO5和ACT1。MYO3不是我们的合并库的成员,而MYO5未包含在酵母ORFeome集中。MS无法区分自身相互作用和诱饵存在,因此,鉴定出的靶标SAM2和ARC40(图4F)归因于纯化的诱饵本身。另一方面,体内mRNA展示能够捕获这种自我相互作用,如SAM2纯化样品中SAM2读数的富集所证明的。
已知ARC40相互作用物ARP2和ARP3缺乏强富集可能是由于多种因素造成的。这些包括MCP融合无法正确折叠或无法有效结合其各自的mRNA,融合结构域受到正在研究的相互作用的干扰,甚至是文库构建偏向。为了进一步探测体内mRNA展示的敏感性,我们设计了一个低通量展示实验,其中包括质谱分析中所有可能的ARC40靶标。我们一次将各自的ORF克隆到我们的构建体中,并验证了它们的序列。除ARC35,ARC18和ARC19外,我们还观察到当纯化ARC40时,ARP2(DS=1.8,q值=0.002)和MYO3(DS=1.9,q值=0.0015)显着富集,而它们并未富集SAM2样品(图4G)。另一方面,ARC15,ARP3和ACT1没有丰富,这说明了我们方法的局限性。尽管高通量文库中不存在ARC15,但ARP3和ACT1在全库纯化测定中并未显着显示其mRNA,这说明了共纯化测定中缺乏富集。

图4 体内mRNA展示技术可实现高通量蛋白质相互作用测定
(A–C)使用来自SAM2-GFP(A),ARC40-GFP(B)或对照GFP(C)的抗GFP磁珠进行共纯化。实验一式四份进行。显示了散点图,显示了裂解物(x轴)相对于纯化样品(y轴)的对数标准化读数。介于第10个百分点和第90个百分点之间的区域将使用相应的颜色着色。GFP mRNA是该测定的阳性对照,并且在所有三种纯化中均富集。SAM2和ARC40的命中标记为黑叉。灰色点表示非特异性ARC40和SAM2命中值,在GFP样品中也显着富集(常见背景)。(D和E)用于SAM2(D)和ARC40(E)的DS的火山图。关于非特异性功能对照(SI附录)计算P值。(F)质谱图,用于纯化的SAM2和ARC40样品的质谱图(黑叉)。两个纯化蛋白的MS和体内mRNA展示的常见命中分别以黄色和蓝色显示。其余MS命中用灰色表示。相对于-log P值绘制了Log2倍数变化(F.C.)。(G)在低通量ARC40(上部)和SAM2(下部)纯化中显示各个ARC40相互作用子的z得分。重复用圆圈表示,而平均值报告为水平线。相对于非特异性功能(nsf)对照(以黑色显示)计算z得分。
讨论
在这里,我们已经证明,MS2-MCP相互作用可在体内将蛋白质与其编码的mRNA稳定地进行非共价连接。我们已经证明可以利用此功能将各种基于蛋白质组学的标准测定法转换为测序读数。我们已经显示,体内mRNA展示的蛋白质以一种可用于基于测序的蛋白质制图的方式保持其细胞器分布。我们还显示了体内mRNA展示可用于体内PPI的高特异性检测。但是,我们发现该技术的使用有一些局限性。不出所料,并不是所有的文库蛋白都能有效显示其mRNA。未来的研究可能会确定C末端外壳蛋白融合文库是否会补充当前的N末端文库并扩展我们的蛋白质组覆盖范围。C末端设计可通过正确处理N末端转运信号来减轻潜在的陷阱,并帮助细胞膜外侧具有N末端的膜蛋白构建体发挥正确的功能。另外,使用每种蛋白质的mRNA进行展示的目的是为了潜在的长度和RNA稳定性偏差,如果忽略这些偏差,可能会部分掩盖正在研究的生物学表型。一种可能的补救方法是,使用相同长度条形码的库将展示蛋白与展示的mRNA分离。此外,可以通过ORF库构建(相对于我们的简单合并方法)在自动ORF中纠正任何可能的构造偏差。
总体而言,体内mRNA展示可利用NGS大规模并行化的简便性,成本和能力,实现高通量蛋白质组学。虽然中通量质谱实验的费用可能超过1,000美元,但使用体内mRNA展示可以处理相同样品的费用约为费用的1/10。与所有展示技术(例如Y2H和噬菌体展示)一样,我们的方法取决于数据库的建设,这需要一些初期的人工和成本,但是这种初期投资将为社区中各种应用带来的长期收益获得回报。此外,体内mRNA在其天然细胞环境中展示询问蛋白,包括翻译后修饰,辅因子的存在和亚细胞定位,使其与亲和力捕获测定兼容,后者是蛋白质组学的金标准。
NGS彻底改变了基因组学,我们设想体内mRNA展示具有类似地提高各种蛋白质组学应用的通量,人工和成本的潜力。体内mRNA展示可能使人们能够研究蛋白质的体内酶促和调节活性,并通过NGS表征其生物化学特性。例如,我们的方法有潜力通过调节激酶或磷酸酶的活性并使用磷特异性抗体来确定其底物的全光谱,从而捕获磷酸化的动态性质。类似地,可以使用此处概述的基于纯序列的方法来探索以DNA和RNA为中心的调控相互作用。
蛋白质功能研究对于研究基础生物学至关重要,同时对于更好地了解疾病的分子病因和开发新的疗法也至关重要。由于MS2标签系统已经在许多不同的细胞环境中得到利用,因此我们预期体内mRNA展示技术可以成为哺乳动物系统中蛋白质组学研究的有力工具。此外,与其他展示技术(例如噬菌体展示)在工业和生物医学应用中实现体外蛋白质优化一样,我们设想体内mRNA展示技术将在生理相关的背景下实现类似的肽和蛋白质优化,从而获得治疗益处。
