长读长单分子实时测序揭示食管鳞状细胞转录组的异质性和复杂性
逆向收费文献阅读小组,因为我个人的放弃,夭折了。
果然,坚持真的好难,我现在都想不通我是如何坚持七八年每日写笔记做分享,积累着1.3万篇教程的?
O(∩_∩)O哈哈~好在是后继有人,在我的生信技能树,生信菜鸟团,单细胞天地,一直都没有分享三代测序相关知识。不过我有预感,这个ISO-seq应该是要在每个癌症里面都发一篇CNS文章的,不仅仅是细胞系这样的前期探索。
文献题目:
Long Read Single-Molecule Real-Time Sequencing Elucidates Transcriptome-Wide Heterogeneity and Complexity in Esophageal Squamous Cells长读长单分子实时测序揭示食管鳞状细胞转录组的异质性和复杂性
摘要:
食管鳞状细胞癌是癌症死亡的主要原因。绘制转录景观图如异构体、融合转录本以及长非编码RNA等对了解恶性肿瘤过程的调控机制具有重要意义。然而,常规的短读长RNA-seq很难发现整个多腺苷酸化的RNA分子。因此,将单分子实时测序(single-molecule real-time sequencing,SMRT sequencing)与RNA-seq相结合,产生高质量的long reads,并研究食管鳞状细胞的转录过程。与最新版本的人类转录组注释(Ensembl 38 release 91)相比,单分子实时数据发现了许多未被注释的转录本、已知的新亚型和长基因间非编码RNA(lincRNAs)。通过与lincRNA注释整合,从单分子实时测序结果中发现了1,521个食管癌特异性lincRNAs。KEGG和基因组富集分析表明,这些lincRNAs及其靶基因参与了多种癌症信号转导途径。异构体分析(Isoform usage analysis)揭示了不同的可变剪切模式,这些剪切模式能够从临床样本中重现或者得到以前研究中验证。通过严格的搜索标准,检测到了多个转录物融合(transcript fusions),这些转录物在目前的基因融合数据库中没有记录,也不容易从RNA-seq中鉴别。通过Realtime PCR和Sanger测序验证了两个新的融合转录本。总体来说,长读长单分子测序很大程度上拓宽了对食管细胞全长转录组的认识,并对癌变过程中的转录多样性提供了新的认识。
研究背景
什么是食管鳞状细胞癌(esophageal squamous cell cancer,ESCC)?为什么要进行转录组研究?
食管鳞状细胞癌(esophageal squamous cell cancer,ESCC)是一种严重的恶性肿瘤,具有预后差,死亡率高的特点。目前大规模测序研究揭示了ESCC患者之间存在基因组异质性,阻碍了有效靶向疗法的开发。虽然基因改变导致了肿瘤的发生,但如何影响转录进程并最终导致恶性肿瘤的表型仍尚未被了解。为了找到改变了的信号通路和新的功能转录物如长基因间非编码RNA(lincRNAs),在过去的几年里,进行了很多基于短读长的转录组研究。
目前测序大致分为二代测序和三代测序,在本研究中为何不使用二代测序?
典型的二代RNA-seq能捕获大量连续的短读数(约100-250 bp),并通过统计建模的方法重构转录本。因此,很难完全从5′到3′端构建RNA分子,也很难注释新的亚型或剪切体。
为什么使用三代测序?
PacBio单分子实时(SMRT)平台属于三代测序平台,能够对几千个碱基对的长圆形共识序列进行测序,并有机会捕获全长转录本。此外,PacBio SMRT还开发了混合测序的算法,利用高准确度的短reads来纠正SMRT测序的错误,提供了一个强大的工具来研究细胞中的转录情况。
本研究的主要内容和研究结论?
选取了1个正常永生食管鳞状上皮细胞系和4个ESCC细胞系,在转录组水平上研究了细胞的异质性。利用混合PacBio SMRT平台,对5个食管细胞系进行了从头测序,产生了约210Gb的clean data和约2,000,000个full-length nonchimeric (FLNC) reads。所有这些FLNC读数都具有清晰的5′和3′ mRNA结构,平均长度大于2.5 kb,非常适合用于完整转录物结构的研究。我们发现了许多新的转录本,如异构体、食管癌特异性lincRNAs和融合转录本等;我们还对癌细胞和正常食管细胞之间的可变剪切(AS)特征进行了整理,揭示了食管癌细胞的异质性和复杂性。
研究方法
研究流程
1. 样本来源
疾病组样本:患者来源细胞系KYSE140(中度), KYSE510(轻度), TE5(重度)和TPA诱导的恶性转化肿瘤细胞系(Shantou human embryonic esophageal carcinoma ,SHEEC) 对照组样本:永生化食管鳞状上皮细胞系(SHEE)
2. 构建文库测序
分别逆转录合成cDNA构建文库
3. 原始数据处理和参考基因组比对
4. 基因结构分析和新转录本注释
利用GMAP导出BAM格式文件和GTF格式基因组注释确定基因和转录本结构。利用Abdel-Ghany等人(https://doi.org/10.1038/ncomms11706)描述的方法分析长读长簇与基因模型重叠以找到新的异构体。 将TSS与CAGE启动子标签和表观遗传标记进行比较。 通过Diamond BLASTX注释蛋白/肽数据库中的未映射转录本和新转录本。 通过Hmscan软件(http://hmmer.org/download.html)对Pfam数据库进行了新型转录本检索。
5. 可变剪切模式分析
通过SUPPA对可变剪切(AS)进行分析, 利用Score D量化细胞之间的差异性。
6. lncRNA pipeline分析
SMRT产生的转录本由CNCI,PLEK,CPC,Pfam-scan预测转录本的编码情况。过滤任何一工具预测具有编码潜力的转录本,剩余的lincRNAs为候选者; 从Cabili’s reference set中下载补充文件(https://doi.org/10.1101/gad.17446611) 筛选lincRNAs,不在SHEE细胞和Cabili’s reference set中表达的lincRNAs被认为是食管癌细胞特异性lincRNAs。 基于使用共表达和共定位模式方法预测lncRNAs的相互作用靶基因。通过计算lncRNAs和编码基因之间的表达相关性。将皮尔逊相关系数>0.95(p <0.001)且位于在lncRNA上游或下游100k的基因确定为该lncRNA的靶基因。 从miRBase数据库(http://www.mirbase.org)下载microRNA(miRNA)发夹序列,并与食管癌细胞特异性lincRNA的序列进行blast比对,确定潜在的前microRNA。
7. KEGG富集分析
8. 转录融合物检测及与数据库中已知或RNA-Seq预测的融合物比较
SMRT转录本根据以下标准确定为转录本融合物:(1)SMRT转录本被映射到两个或两个以上长距离范围的独立位点上,且每个位点必须映射至少10%的query transcript;(2)总合并配准覆盖率至少为99%;(3)每个映射位点之间的最小距离在100 kb以上;(4)发现至少有两个Illumina reads跨越交界处。符合上述所有标准的SMRT转录本被视为融合转录本。染色体中各位置之间融合概述在R包 "RCircos "中均有描述。 利用STAR-Fusion(默认参数)检测Illumina RNA-seq reads的转录本融合(https://github.com/STAR-Fusion)。根据比较跨越交界处的Illumina RNA-seq读数(以s表示)和与其相邻的两侧读数(分别以a和b表示),通过a/s<2∩b/s<2标准筛选融合转录物,然后人工检查,进行后续实验验证。为了将检测到融合物数据库中的预测进行比较,先将gene symbol转化为Ensemble Ids (ChimerDB 3.0中使用);然后,将匹配的基因作为结果。
9. 融合转录本的验证和测序
实时PCR和Sanger测序
研究结果
1. 食管细胞的全长转录组测序结果
SMRT数据集质量良好
2. 食管细胞中全长转录本特征
2.1 从全长转录本中发现的新基因和异构体
使用GMAP将SMRT reads比对人类Ensembl 38 release 91基因组。平均比对率为90%,每个食管鳞状细胞转录本唯一比对到参考基因组的比例为80%。
短读长Illumina RNA-seq reads通过HISAT2 mapper比对到参考基因组的比对率**>92%**
80% SMRT转录物是新基因或已知基因的异构体
有50%的TSS与FANTOM5 CAGE数据集中的对应物在10 bp以内。TSS与三个表观基因组标记物的距离更近,大部分的平均距离为1 bp,证明了全长转录的有效性。
超过85%的转录本的蛋白质产物可以在数据库中至少匹配一次,表明许多新转录本确实被翻译成了蛋白质
证明多个正交数据集能够确认所检测到的转录本可能是全长的
2.2 发现食道癌细胞特异性lincRNAs
总计在食管癌细胞中发现1,521个特异性lincRNAs。file 预测lncRNAs调控靶基因,发现在癌症相关信号通路和细胞基质外受体相互作用中显著富集,这表明相互作用的lincRNAs可能具有类似的生物学功能。此外,通过与已知的miRNA发夹序列与lincRNA序列比对,发现了37个潜在的前miRNAs。file
2.3 鉴定食管细胞中细胞特异性异构体
跳过的外显子(SE)是所有食管细胞中所有AS类型中最丰富的,与之前的研究结果一致。SE是人类基因组中最普遍的AS机制。相比之下,互斥性外显子只占所有AS的5%,是最不常见的AS类型。与其他四种肿瘤细胞相比,正常样细胞SHEE中的AS没有特别的偏好和排斥。 前500个差异拼接基因在三个Gene Ontology (GO) term中显著富集,分别是** “DNA repair,” “cellular response to DNA damage stimulus,” and “positive regulation of GTPase activity”(FDR≤0.05)**file
2.4 食管细胞中转录物融合的鉴定和验证
全长SMRT读数中鉴定出1 972个转录物融合。 KEGG通路富集表明,融合基因偏重于RNA加工(即splicosome, ribosome, and RNA transport)和癌症信号通路(focal adhesion, cell cycle, and apoptosis)相关的生物学功能。 通过SMRT与RNA-seq转录本融合比较结果表明SMRT能发现更多的融合。 SMRT数据中发现的基因融合与ChimerDB 3.0中数据进行比较,在TE5、SHEE、KYSE510、KYSE140和SHEEC中分别只发现了2个、3个、2个、2个和1个相同的融合,说明从长读长中发现的大多数融合是新转录本融合。 通过实时PCR和Sanger测序,验证了两个新的转录融合物,分别是**ring finger and CCCH-type domains 1–aldo-keto reductase family 1 member B10 (RC3H1-AKR1B10)**和NEK9-TTC21B。 重点关注RC3H1-AKR1B10,RC3H1-AKR1B10这种转录融合物在食管细胞中表达不同,在正常样SHEE细胞中表达最低。RC3H1蛋白由一个Roquin结构域组成,该结构域是构成 decay element-dependent RNA binding所需的。在Roquin域的N端和C端,都具有核苷酸结合的位点。RC3H1含有两个锌指基团。AKR1B10编码aldo/keto reductase,能有效地还原脂肪族和芳香族醛。RC3H1的最后3¢非翻译区外显子与AKR1B10的第一个5¢非翻译区外显子融合,因此,预计融合后的蛋白将保留来自两个亲本基因的完整功能区。用默认参数Blast将两个融合序列与ESCC患者的RNA-seq数据集比对但未能从这些临床样本中找到阳性结果。
结论
目前,测序技术发展迅速。结合PacBio SMRT测序平台与短读长测序,发现了大量的全长转录本,并显著增加了食管细胞的基因和同工型注释。具体来说,我们对AS多样性、癌细胞特异性lincRNAs以及新型转录物融合的检测等方面的研究,启发了目前对食管细胞癌变过程中转录异质性和复杂性的认识。
思路分析
我们其它NGS技术都有交流群,如下:
但是这个将单分子实时测序(single-molecule real-time sequencing,SMRT sequencing)与RNA-seq相结合的ISO-seq就有点麻烦,因为我一直没有这方面项目,所以没有来得及研发它的数据分析流程。
大家可以留言讨论这方面需求,是否有必要组建微信交流群?