这么热的circRNA如何结合生信发文章?
The Circular RNA Landscape of Non-Small Cell Lung Cancer Cells
非小细胞肺癌细胞的环状RNA格局
一、 研究背景
环状RNA(circRNA)与传统的线性RNA(linear RNA)不同,通过共价键将首尾相连呈封闭环状结构,不受RNA外切酶影响,表达更稳定。由于其高稳定性,circRNA被认为是新的生物标志物的良好候选者。同时,circRNA可能作为对治疗反应的良好预测性生物标志物。而肺癌是常见的癌症类型,最常见的是非小细胞肺癌(NSCLC),NSCLC可以进一步分为腺癌(LAUD)和鳞状细胞癌(LUSC)亚型。作者命名了FL3C的细胞数据集,并欲通过FL3C描述circRNA在NSCLC细胞系中的格局,从而综合分析circRNA与非小细胞肺癌中的特定表型和基因型的关系。
二、 分析流程
三、 结果解读
1. 肺癌细胞在rRNA消耗殆尽后进行circRNA的检测
作者将自己组建的数据集(FL3C)与公共数据库CCLE中的数据进行比较。二者使用了不同的circRNA检测方法。结果证实二者的检测量有显著差异:使用rRNA-方法的FL3C数据集检测量25倍大于poly(A)富集方法的CCLE数据集;在耗尽rRNA之后进行RNA的测序,检测circRNA是可行的。
图1:不同方法检测到的circRNA读数
2. FL3C数据集的一般特征
作者在此进行了分组,基因水平(gene level)按照circRNA是否衍生于同一个基因分组,反向剪接位点水平(backsplice level)则根据是否衍生于同一个反向剪接位点分组。
A展示了FL3C数据集的构成:60个人肺细胞系,其中50个肺腺癌细胞系,7个非腺癌的NSCLC细胞系,3个是未转化的肺细胞系。
B展示了每个基因衍生的circRNA数量。其中对FL3C数据集中那些至少在30个细胞系表达circRNA的基因进行分组。
C和D展示了circRNA在基因/反向剪接位点水平的频数分布。
E和F展示了基因/反向剪接位点产生的circRNA在不同细胞系的表达情况。x轴表示细胞系的数量。
图2:FL3C数据集特征
3. circRNA的第一个和最后一个外显子是被贫化的。
作者分析了circRNA中沿mRNA表达的外显子,发现第一个和最后一个外显子很少在circRNA中表达。
A展示了反向拼接(backsplice)的示意图:受体外显子首先出现在线性mRNA中,随后的供体外显子被反向剪接。
B和C是针对受体外显子位置绘制的频数分布图。B是外显子位数,C是mRNA位置的百分数分段。可以看出最前端的外显子/mRNA分段的内容作为受体外显子的概率要远远小于第二位置的外显子。
D和E是针对供体外显子位置绘制的频数分布图。D是外显子的位数,E是mRNA位置的百分数分段。可以看出最后一位的外显子/mRNA分段的内容作为供体外显子的概率远远小于倒数第二位。
图3:circRNA中外显子的使用频率
4. circRNA的表达可以区分肺癌细胞和未转化的肺细胞
作者在基因水平和反向剪接位点水平进行了聚类和主成分分析(PCA)。筛选了在基因和反向剪接位点水平最高表达的100个circRNA进行分析。
A和B对筛选出来的circRNA表达进行聚类分析。可见未转化的细胞系在基因和反向剪接水平上都聚集。
C和D对筛选出来的circRNA表达进行PCA。降维数据,描述了非转化细胞系与腺癌和非腺癌NSCLC细胞系分别成簇(对应蓝色,粉色,绿色)。在较小程度上,非腺癌细胞系也成簇。
E和F对细胞系复制后聚类。反应绝大多数细胞系复制的高重复性。
图4:circRNA表达的聚类和可重复性
5. circRNA和线性RNA的表达正相关
由于circRNA是从线性RNA中衍生而成的,因此作者对二者进行相关性分析,绘制下述相关性分布的图像。在这里total RNA(总RNA)即线性RNA。
A和C:在基因和反向剪接位点水平上绘制的相关性分布。可见基因水平上相关系数中位数是+0.27,而反向剪接位点水平,也就是独立探讨单个circRNA,相关系数中位数只有+0.06。
B:在≥30个细胞系中表达的RNA的基因和反向剪接水平上,circRNA和总RNA之间的相关性分布。可见相比较于A,这里两种水平的相关性差异减少。因此,大多数表达良好的circRNA与线性RNA的表达正相关,只有极少数的例子是负相关的。
D:基因和反向剪接水平的相对circRNA /总RNA比率(相对单位)。可见circRNA和总RNA的比率有很大的差异
图5:circRNA与总(线性)之间的相关性
6. 癌基因产生更多的circRNA
作者采用了COSMIC数据库(ver90)中的CGC,将FL3C数据集内的基因分成癌基因和非癌基因。癌基因与非癌基因相比,在基因水平更能显示出circRNA的特性。
A:在基因的水平,对标准化的circRNA进行求和:可见癌基因在读取量方面占优势,2.1倍。T-test p = 1.8×10−5。
B:在反向剪接位点水平,求和后发现,高达8.4%的circRNA来源于癌基因,但平均读取量优势不如基因水平的显著。
C:对circRNA/总RNA的CGC和非CGC基因之间circRNA数量差异的频率分布。可见circRNA比率低的基因座更少见于癌基因。
图6:癌基因(CGC)中的circRNA表达
7. 某些circRNA的表达展示出与细胞增值的相关性
在之前的研究表明,circRNA的表达量与FL3C细胞系中的细胞增值速率有关。作者将细胞根据增殖速率分成快速增殖细胞(72小时内细胞计数增加≥5倍,有11个),缓慢增殖细胞(72小时内细胞计数≤3倍,有21个),其他细胞共三组。
A和B:circRNA的表达跟细胞增值的相关性的分布曲线
C和D:筛选在30个细胞系以上表达的circRNA,circRNA的表达跟细胞增值的相关性的分布曲线。与上述A,B进行互相比较。
E和F进行相关性分析的正交分析。根据增殖速率的分组,发现有些circRNA仅在缓慢增值细胞系中表达,有些仅在快速增值细胞系中表达。这种特征在多细胞系表达的circRNA中更显著。
图7:circRNA与细胞增殖的相关性
接下来作者进行了进一步的分组,选取满足CGC中癌基因以及在>30个细胞系表达的基因进行下一步的分析。这些circRNA表达水平与细胞增值之间显现出很强烈的正相关和/或负相关性。
SMAD2和MET的circRNA以及总RNA表达水平与细胞增值呈正相关。对于SMAD2的反剪接位点而言,两种同工型与增值正相关。
DEK中,增值与circRNA负相关-0.34,与总RNA无关,反剪接位点水平而言,两种同工型负相关。
图8:在快速增殖细胞系和缓慢增殖细胞系中验证与增殖相关的circRNA
8. circRNA的表达与组织学或遗传学分类相关
作者根据组织学亚型,遗传背景等计算了circRNA的表达差异。数据经过统计学处理,火山图的垂直虚线表示倍数变化为零。水平虚线描绘了针对多次测试校正后的p值阈值。总体而言,某些circRNA与肺细胞的转化状态,组织学,基因型相关。
A:比较NSCLC细胞系和非转化细胞系的数据,发现128个circRNA的差异表达达到统计学意义的显著。
B:比较NSCLC细胞系中是否为肺腺癌进行分类,进行组织学的对比。可见腺癌的circRNA表达量更高。
C,D,E,F是根据基因亚型的研究。EGFR和KARS基因型的研究,二者的表达差异均不显著(C和D)。TP53突变后某些circRNA的表达明显增加(如circSBDS),BRAF突变后总体显示较低的circRNA表达。
图9:根据转化状态,组织学亚型或基因型在基因水平上的circRNA火山图
9. circRNA在有Laccase2内含子的NSCLC细胞系中有效表达
作者进一步对NSCLC细胞系中的circRNA表达量进行探究。对12个基因选用拥有Laccase2内含子进行过表达载体的构建。
A图展示了过表达载体的构建概况。
B和C:RT-PCR实验,绘图展示12个基因的过表达情况。图E表示不同的基因过表达载体导致其circRNA的增值跟线性RNA的增值是不等的。
F分析circRNA过表达后,与总RNA的比率变化相关性。发现内源性circRNA/总RNA读计数比与circRNA /总RNA比率在过表达时发生负相关(R = -0,38)
图10:circRNA的过表达
10. circTNFRSF21的翻译两次跨反剪接位点,形成大小为42kDa的蛋白质
circTNFRSF21是在肿瘤细胞和非肿瘤细胞的表达有显著差异的circRNA。
A和B:PCR和电泳后的条带浓度(RT-表示没有反向转录酶),反应该蛋白的表达与反向剪接位点有关。B图展示凝胶电泳后的条带信号强度。比较过表达与控制样品的蛋白含量,表明过表达未改变内源性TNFRSF21蛋白表达。
C图为蛋白质印记实验,展示circTNFRSF21的过表达对蛋白质合成的影响。观察到在大42kDa的地方有一条突出的条带。接着作者检测不同细胞系中TNFRSF21的内源蛋白表达,发现在这些细胞系中也有这个的表达(图D)
在NCBI的ORFfinder,发现circTNFRSF21的ORF是跨越了两次反向剪接位点的读取框。刚好形成一个42kDa大小的分子。
图11:circTNFRSF21的翻译
11. circRNA的过表达影响NSCLC细胞系的克隆形成
作者筛选了在细胞系中原本表达量低的基因进行过表达操作,进行细胞克隆实验。证明了某些circRNA有对细胞增殖有功能性的影响。
A:对PVTI过表达的细胞实验。PVT1是致癌的cirRNA,它的过表达显著提高了细胞的克隆增殖能力。
B:circERBB2:是肺癌的知名致癌因子,它的过表达显著提高了细胞的克隆增殖能力。
C:对非CGC的致癌基因HIPK3过表达,也提示细胞的克隆增值能力提升。
D和E分别对细胞周期相关的基因和转化状态差异大的基因进行过表达,均发现circRNA的高表达与克隆水平增加有关。
图12:circRNA过表达对肺癌细胞系克隆形成的影响
小结