2020年新思路: 临床预后结合组学发4分+SCI!
Genomic Identification of RNA Editing Through Integrating Omics Datasets and the Clinical Relevance in Hepatocellular Carcinoma通过整合Omics数据集以及HCC临床相关性进行RNA编辑基因组鉴定
一、背景介绍
HCC是一种高度恶性的肿瘤,早期无症状且缺乏有效的治疗,因此研究清楚HCC的发病机制,以便设计出更有效的治疗和诊断方法十分有必要。
RNA编辑是一种转录后修饰机制,可以在RNA水平修改遗传信息,最常见的为A-to-GRNA编辑。RNA编辑异常可能影响蛋白质表达,RNA可变剪切,非编码RNA调控。
二、分析流程
三、结果解读
1.HCC与正常组织中RNA编辑位点的属性
作者从TCGA的Genotypes与Phenotypes (dbGaP)数据集中获取了377个HCC样本与50个相邻正常肝组织的Pair-end RNA-seq数据。DNA突变,基因表达和临床信息从TCGA中获取;SNP数据从dbSNP与1000 Genomes Project中获取;3'UTR,5'UTR,CDS和内含子的基因注释从UCSC网站中获得;基因功能注释从MsigDB中获得。作者结合RNA编辑位点检测方法,融合DNA突变与SNP数据建立了一个RNA编辑位点多级鉴定模型,editing degree定义为给定区段内编辑位点占总位点的比例。
1A为RNA编辑位点鉴定流程,首先将TCGA的BAM文件使用BEDtools转变为FASTQ格式,使用STAR将RNA-seq数据与人类参考基因组匹配。之后通过GATK4确定RNA编辑位点。然后通过5步进行vcf文件滤过:去除HCC样本的DNA突变位点——去除已知的SNP——保留support reads ≥2,coverage reads≥10,≥10% editing degree change的编辑位点——去除 editing degree为100%的位点——在至少1%的样本中可检测到。最后作者将编辑位点限制在46条人类染色体上,使用 BEDtools软件绘制其位置,除去同时在两条链出现的编辑位点,最终获得了19431个RNA编辑位点。
1B展示了RNA编辑位点在正常组织和HCC中的占比分布,HCC中RNA编辑位点占比高于正常组织。1C为RNA编辑位点在不同数量样本中的分布,超过半数的编辑位点在不到10个样本中出现。1D为编辑位点在不同 editing degrees的分布,大多编辑位点editing degrees在20%-30%间。1E为编辑变异类型分布,A-to-G编辑最多,然后是 T-to-C, G-to-A, C-to-T,与之前研究结果一致。接着作者将编辑位点注释上基因类型信息,1F为基因类型和基因注释的分布,结果显示大多编辑位点位于蛋白编码基因,一部分在基因间与lncRNA区域,53.68%的编辑位点在3′UTR区域。
图1.HCC与正常组织中RNA编辑位点的鉴定
2.RNA编辑可能与HCC病人中HCC风险基因突变相关
因为RNA编辑和DNA突变有着相似的增加细胞转录多样性的功能,因此作者研究了二者之间的关联。作者从之前研究中获得了33个HCC相关风险基因,其中24个风险基因有DNA突变(145个突变点),6个风险基因有RNA编辑(14个RNA编辑点)。2A展示了在164个HCC风险基因突变样本中突变位点和编辑位点占比,红点代表突变位点的数量/全部HCC风险突变位点,蓝点代表编辑位点的数量/全部HCC风险编辑位点。2B展示了在35个无HCC风险基因突变HCC样本中突变位点和编辑位点占比,结果显示35个无DNA突变的样本中都存在RNA编辑位点。2C为在有突变和无突变的HCC样本中编辑位点占全部HCC风险编辑位点的比例,作者发现在无DNA突变的样本中编辑位点占比更高,同时在有RNA编辑样本突变位点占比更低(2D)。以上结果表明RNA编辑是HCC的危险因素且与HCC风险基因突变相关。
图2.RNA编辑可能与HCC病人中HCC风险基因突变相关
3.HCC相关RNA编辑易发生在肝组织特异表达基因上
HCC相关RNA编辑点包含HCC增加,HCC缺失以及异常编辑(dys-edit)位点,HCC增加和缺失位点使用Fisher确切概率法鉴定,且要求HCC增加位点在正常组织中不超过5%,HCC缺失位点在肿瘤组织不超过5%。dys-edit位点通过分析50对HCC-正常组织样本editing degree经两步确认,首先使用Student’s t-test,adjust p < 0.2且p < 0.01,然后筛选出至少在两对HCC-正常组织样本中editing degree change大于0.25的编辑位点。3A展示了373个HCC样本和50个正常样本中HCC增加或HCC缺失RNA编辑位点,上方柱状图为在每个样本中HCC增加或HCC缺失位点占比,下方热图展示了每个样本的editing degree。3B展示了24个HCC中异常的RNA编辑位点在50对HCC与正常组织样本中的editing degree。如表1显示,最终作者共获得了454个HCC相关RNA编辑点,包括264个HCC增加位点,166个HCC缺失位点,24个异常编辑位点。为了进一步研究HCC相关RNA编辑功能,作者通过hypergeometric test使用MsigDB数据库对相关基因进行了功能富集分析,结果显示HCC相关编辑基因多为肝组织特异性表达基因,影响核转运,分解代谢,细胞周期过程。
图3.HCC相关RNA编辑位点
表1.HCC相关RNA编辑位点
4.HCC相关RNA编辑位点在相同基因有着相同的编辑模式
大多HCC相关RNA编辑位点处于基因区域88.99%, 404/454。4A展示了处于同一基因的HCC相关RNA编辑位点。Y轴代表编辑位点总数,X轴代表位于同一基因的不同编辑位点数量,结果显示73个基因含有2个以上RNA编辑位点,占全部编辑位点的50%。4B与表2展示了同一基因上不同编辑位点的编辑模式,作者发现有89.04%处在相同基因的不同RNA编辑位点有着相同的编辑模式,如在MDM4上有7个HCC增加编辑位点,表明这些位点在HCC的发生和发展过程可能发挥重要作用。
图4.HCC相关RNA编辑位点在相同基因有着相同的编辑模式
表2.处在相同基因有着相同的编辑模式的RNA编辑位点
5.RNA编辑点对正常功能的影响
之前研究表明RNA编辑可能对相关基因的蛋白质编码,可变剪切,miRNA结合调节,RNA表达产生影响(5A)。于是作者通过ANNOVAR软件对编辑点进行注释判断其对蛋白质转录和可变剪切的作用;使用miRanda软件,通过预测miRNA与mRNA结合力来预测编辑区域和对照区域的miRNA结合情况,如果对照区域可结合,编辑区域不可结合则定义为“edited loss” ,相反则定义为“edited gain”,如果两区域的结合力变化超过14 kcal/mol则定义为“edited change”,以上三种情况出现说明RNA编辑位点可能对miRNA的结合有影响;计算editing degree与RNA表达水平间的Pearson相关系数来判断RNA编辑是否对其表达水平产生影响。
5B展示了影响相关功能的编辑位点数量,作者共确定了2064个有功能的编辑位点,其中46与HCC相关,通过ANNOVAR确定的影响可变剪切的30位点与HCC不相关。5C展示了影响蛋白编码序列(CDS)的RNA编辑位点,554个位点对功能有影响,包含1个终止密码子缺失,7个获得终止密码子,536个非同义突变,10个影响未知,当中11个与HCC相关。之前研究表明一些蛋白如AZIN1,MUC6的异常表达与肿瘤发生发展相关,于是作者推测一些位于重要蛋白编码区域的RNA编辑通过影响蛋白质属性在HCC进展中发挥作用。因为一半以上的编辑位点在 3′UTR区域,于是作者研究了它们对miRNA结合的影响,通过miRanda共确定的1356个有影响的位点,26个与HCC相关,其中top3为miR-17-3p,miR-20b-3p, and miR-593-3p,它们广泛参与HCC的发生与发展。之后作者又研究了编辑位点对RNA表达的关系,5D展示了相关基因表达与editing degree的Pearson相关系数。共有163个有影响的位点,其中10个与HCC相关,Pearson相关系数倾向为负,表明RNA编辑位点可能导致相关基因表达下调。
图5.RNA编辑点功能分析结果
6.有功能的HCC相关RNA编辑位点可用于预后预测
为了进一步研究RNA编辑和HCC临床特征间的关系,作者整合了46个有功能的HCC相关RNA编辑位点的editing degrees与基因表达水平,通过单因素Cox回归分析得出每个HCC样本的风险得分。当编辑位点与生存时间正相关或负相关时βi=1/-1,n代表位于基因区域且editing degrees>0的HCC相关RNA编辑位点数量。Expgene(i)代表出现编辑位点i的基因表达水平,Editi代表编辑位点i的editing degree。
然后作者使用Wilcoxon rank-sum test判断风险得分与肿瘤分级,分期间的关系,因为grade4样本过少,因此作者只考虑了grade1-3,stage1-4,6A, 6B结果显示风险得分越高,肿瘤分级分期越高,恶性程度越高。然后依据中位风险分数,病人被划分为高低风险组,使用KM生存分析判断两组之间的生存差异,6C为两组的生存曲线,结果表明高风险组预后差。为判断风险得分是否为独立的预后因素,作者对预后相关因素(性别,年龄,BMI,分级,分期,风险得分)进行了多元生存分析,结果展示在表3,在排除其他因素影响后,风险得分仍与病人预后相关,HR=1.03, 表明46个HCC相关编辑位点可以作为HCC病人临床预后的生物标志物。
表3.46个有功能的RNA编辑位点多元分析结果
然后作者通过单因素回归分析确定了3个预后相关编辑位点(表4),它们的editing degrees与生存时间关系密切,p<0.05。使用这三个编辑点以及对应基因计算出风险得分中位数用于病人分组,分组效果良好,p = 0.03,且在排除性别,年龄,BMI,分级,分期影响后3个编辑点仍有预后价值。因为HBV/HCV感染,酒精摄入和非酒精性脂肪肝是HCC病人3个主要的风险因素,所以作者进一步研究了3个预后相关编辑位点在风险因素影响下的预后预测效果,6D,6E为分组效果,结果显示在HBV/HCV感染,非酒精性脂肪肝风险组,预测效果仍较好,但在酒精摄入风险组预测效果差。最后作者对46个有功能的HCC相关编辑位点进行了富集分析,6F显示它们广泛影响了蛋白质代谢,转录,细胞周期通路。
表4.3个预后相关有功能的HCC相关编辑位点
表5.3个预后相关编辑位点的多元生存分析结果
图6.有功能的HCC相关RNA编辑位点可用于预后预测
小结
作者通过整合DNA突变和SNP信息进行了RNA编辑位点鉴定,发现HCC组织中编辑位点数量显著高于正常组织,然后分析了编辑位点与基因突变的关系,判断RNA编辑是HCC的风险因素。于是作者进一步鉴定了HCC相关RNA编辑位点与编辑模式,通过分析RNA编辑位点对正常功能的影响来寻找它与HCC进展间的关联,最终作者找到了46个有功能的HCC相关RNA编辑位点,且具有预后预测价值。