16分的泛癌生信分析,快来学习下

大家好,今天要和大家分享的是2021年1月发表的一篇文章:“Apan-cancer atlas of somatic mutations in miRNA biogenesis genes”。
miRNA生物功能表达是由许多蛋白质共同协调的复杂过程,这些蛋白质统称为miRNA生物发生蛋白。为了研究miRNA生物基因中的癌症体细胞突变并研究其对miRNA水平的潜在影响,作者分析了TCGA数据库中保存的1万多个癌症/正常样本对的全外显子组测序数据集,鉴定出29个miRNA生物基因中的3600多个体细胞突变,并表明其中一些基因在特定癌症中过度突变和/或具有复发性热点突变(例如PAAD、COAD和READ中的SMAD4;UCEC中的DICER1;OV和SKCM中的LIN28B)。最终,作者确定了一系列miRNA,其水平受SMAD4、SMAD2或DICER1中特定类型突变的影响,并表明DICER1 RNase域中的热点突变不仅降低了5p-miRNA的水平,而且还增加了3p-miRNA的水平。另外,作者分析许多在具有特定突变类型的样本中显着增加或减少的miRNA,并将一些与突变相关的miRNA与临床结果联系起来,创建了一个以图谱和miRNA生物发生基因突变图的形式呈现信息纲要,这可能成为研究特定基因或癌症类型的有用信息资源。

发表杂志:Nucleic Acids Res.

影响因子:11.501  即时影响因子:16.49

研究背景

miRNA是通过miRNA生物发生的多阶段过程产生的,这些过程受各种蛋白质的严格控制。有研究曾提出miRNA在癌症中被全局下调,并且作为致癌基因或肿瘤抑制因子的某些miRNA的上调或下调可能有助于癌症的发展和进展。大量的miRNA分析研究也已导致鉴定出许多在不同类型或亚型的癌症中特异性改变的miRNA。许多这些miRNA在致癌作用和不同癌症相关过程的调节中发挥重要作用,例如细胞生长和分化、细胞迁移、细胞凋亡和上皮间质转化(MET)。此外,许多miRNA已被认为是癌症的诊断和预后生物标志物和/或潜在的治疗靶点。

流程图

分析解读

1、数据收集与处理

①使用TCGA数据库中33种癌症类型的分子和临床数据。

②拷贝数数据是通过Xena UCSC作为TCGAPan-Cancer(PANCAN)队列的“基因级拷贝数(gistic2_thresholded)”数据集获得的。

③磷酸化的SMAD2/SMAD4异源三聚体复合物(PDB代码:1U7V)的晶体结构使用PyMOL进行可视化。

④根据HGVS命名法在转录本和蛋白质水平指定所有突变,并使用Ensembl Variant Effect Predictor(VEP)工具预测突变的影响。

2、不同癌症类型的miRNA生物基因中的体细胞突变分布

①作者选择了29个miRNA生物基因。

这些基因编码的蛋白质有以下特点:

(i)  在初级miRNA前体(pri-miRNA)转录

(ii)pri-miRNA到细胞核中的pre-miRNA加工

(iii) pre-miRNA在从细胞核到细胞质输出中发挥作用

(iv) 细胞质中的pre-miRNA加工和miRNA成熟

(v)miRNA:靶标识别/相互作用和下游沉默效应的调节(如下图)

②作者为了识别miRNA生物基因中的体细胞突变,利用在TCGA项目中生成的10369对肿瘤/正常样本的WES数据集,共识别了泛癌组的5483个突变,并移除了超变异样本(SKCM、UCEC和COAD)。

③去除超突变样本后,作者继续分析具有3649个突变的10255个样本,包括2196个(60%)错义突变、774个(21%)同义突变和625个(17%)明确有害突变,包括341个移码、222个无义突变和62个剪接位点突变。

3、33种癌症中miRNA生物基因的体细胞突变频率

为了识别过度变异的基因,作者在统计学上比较了特定基因(与所有其他基因)中突变频率(与所有其他基因)与泛癌的相应频率。

下图A:miRNA生物生成基因面板中样本总数(黑条)和突变样本百分比(蓝条)。

下图B:具有不同突变数的样本比例。

下图C:热图显示不同癌症类型(x轴)中每个miRNA生物生成基因(y轴)中突变的频率。

4、miRNA生物基因突变分布——热点突变鉴定

①为了说明沿蛋白质序列的突变分布,所有突变都在棒棒糖图中进行可视化。

②突变以棒棒糖图的形式沿基因编码序列可视化,并指示外显子结构和蛋白质功能域。突变符号(圆)的大小与突变数量成正比,颜色表示突变类型(如图所示)。所有突变都根据HGVS命名进行注释,蛋白质水平突变的影响用VEP工具(Ensembl)表示。

下图A:出现在SMAD4的MH2结构域中的由8个反复突变的氨基酸(AA)残基(即D351、G352、D355、P356、R361、H382、G386和D537)组成的集群。

下图B:最突出的热点位置是R361,它本身获得了37个错义突变,占所有SMAD4错义突变的23%。在SMAD2的MH2结构域中还有两个反复突变的AA残基(即P305和R321)。

下图C:另外两个错义热点突变簇位于DICER1的RIIIa(S1344)和RIIIb(E1705、D1709、D1810和E1813)结构域的金属离子结合残基中。

下图D-F:PRKRA、DOX17和ZCCHC11在miRNA生物发生基因中识别突变的分布情况。

5、SMAD4突变特征

下图A:热点和有害突变(y轴)在不同癌症类型(x轴)中的比例。

下图B:SMAD2/SMAD4、SMAD4/SMAD2和SMAD2/SMAD2表面SMAD4:(SMAD2)2异源三聚复合物中热点AA残基的定位。

下图C:不同类型SMAD4突变样本中SMAD4拷贝数改变的比例(y轴)。

下图D:火山图描绘了与没有任何SMAD4突变的样品相比,具有不同类型SMAD4突变的样品中miRNA水平的变化。

下图E:箱线图显示了具有不同类型突变的样本与没有任何SMAD4突变的样本(x轴)中所选miRNA水平(y轴)的分布。

下图F:小提琴图显示了在没有SMAD4突变的样本和具有不同类型SMAD4突变的特定样本(不同颜色的点)中E中显示的miRNA的非泛癌标准化水平(y轴)的分布。

下图G-H:Kaplan-Meier图分别表示在泛癌和特定癌症类型中没有和具有特定类型SMAD4突变的患者的OS。

6、SMAD2突变特征

下图A:火山图描绘了具有特定类型的SMAD2突变的样品与没有任何SMAD2突变的样品相比miRNA水平变化。

下图B:箱线图显示了具有不同类型SMAD2突变的样本与没有SMAD2突变的样本中所选miRNA水平(x轴)的分布。

下图C:小提琴图显示了在没有SMAD2突变的样本和具有不同类型SMAD2突变的特定样本中B中所示miRNA的非泛癌标准化水平(y轴)的分布

下图D:Kaplan–Meier图显示了患有p.S464Ter在泛癌中,COAD和BRCA中没有任何SMAD2突变的患者的OS。

下图E:维恩图显示了由指定类型的SMAD2和SMAD4突变改变的miRNA之间的重叠。

7、DICER1突变特征

下图A:具有不同类型DICER1突变的样本中DICER1(y轴)拷贝数改变的比例。

下图B:火山图描绘了在具有不同类型DICER1突变的样本中,针对miR-451a水平(分别为第二和第三列)标准化前后泛癌(第一列)和UCEC中miRNA水平的变化。

下图C:每张图显示了3p-和5p-miRNAs(y轴)在具有特定类型DICER1突变(x轴;P<0.05)的样本中下调和上调的miRNAs的比例。

下图D:箱线图显示了在具有RIIIa和RIIIb突变的样品中与没有DICER1突变的样品(x轴)的UCEC(y轴)中高度表达的49个3p-miRNA的主要miRNA部分的分布。

小结:

本项研究中,作者利用癌症基因组图谱(TCGA)项目中生成的数据来分析miRNA生物基因中的体细胞突变。结果,在由10000多个样本组成的33种癌症类型中确定了数百个突变和许多反复突变的热点位置,并表明某些基因在特定癌症类型中发生了特异性过度突变。此外,作者还证实了SMAD4中有害突变的常见发生,并进一步表征了SMAD4、SMAD2和DICER1中的特定热点突变,并显示了由DICER1、SMAD4和SMAD2中的特定突变类型导致的miRNA谱的特征变化。另外,作者还展示了突变与癌症特征和患者存活率的关联,这些信息可能为研究特定基因或癌症类型提供有用的信息资源。
(0)

相关推荐