应用Robust rank aggregation法筛选肝癌的差异表达关键基因
范振海 邢时云 冯源
【摘要】目的:采用生物信息学方法筛选出肝癌的关键差异表达基因。方法:对GEO公共数据库中获取的四组肝癌和癌旁组织基因表达芯片数据进行生物信息学分析,首先用R数据包中的limma程序分别对各数据集的差异表达基因进行初筛,再进一步应用Robust rank aggregation( RRA)法筛选出四组数据集共同差异表达的关键基因。结果:通过筛选共获得269个差异表达基因,其中上调基因76个,下调基因193个,筛选出的差异表达基因与现有文献报道一致。结论:RRA法是一种对多组基因表达数据进行差异表达基因筛选的可靠方法。本研究筛选出的差异表达基因,有望对肝癌发生的机制研究、肿瘤标志物的筛选以及治疗靶点的选择提供参考。
【关键词】肝癌;差异表达基因;稳健排序整合;基因表达谱芯片
原 发 性肝癌(primary livercancer,PLC)是全世界第六位最常见的恶性肿瘤,也是导致人类死亡的第二大肿瘤。其中大约75%的肝癌发生在亚洲,仅中国就占全世界50%以上的肿瘤病例[1]。PLC患者预后差,美国平均五年生存率仅为14%[2],而在欠发达国家患者的预后则更差。因此,深入研究PLC相关的发生发展机制将为肝癌的治疗及预后提供临床参考。
随着基因组学领域的快速发展,PLC研究领域也出现重大的革新性改变。高通量测序技术的出現使大量的基因表达数据不断涌现,使人们发现肝癌组织和细胞在特定状态下的基因表达情况和关键基因变化规律提供了可能。另外,由于各个实验室实验条件不同、临床样本包含的人群种族差异以及芯片平台的不同,大量的研究结果呈现出的结果也不尽相同。因此,寻找一种有效评价不同基因表达谱研究结果的方法具有重要的意义。
稳健排序整合( Robust rankaggregation,RRA)法是一种利用概率模型整合排序列表的方法。有研究将其用于整合多组芯片数据基因列表,取得良好的效果[3,4]。本研究中我们采用RRA法对四组肝癌和癌旁组织基因表达谱数据集中差异性表达基因中的关键基因进行筛选,旨在为临床筛选肝癌发生、发展的相关分子标志物及药物治疗靶点提供理论依据。
1 材料与方法
1.1 材料
生物信息学分析涉及数据集GSE45267、GSE45436、GSE76427、GSE62232均来自美国国立生物技术信息中心公共数据平台基因表达综合数据库( Gene Expression Omnibus, GEO), 数据的研究类型均为Expression profiling byarray,种属为人,芯片平台除GSE76427是GPL10558外,其余均为GPL570(具体数据信息见表1)。
1.2 数据处理及差异基因分析
各原始数据集分别用R语言软件包进行数据处理,通过RMA算法对原始数据进行背景校正、标准化及表达值计算。我们以P<0.05和log(差异倍数)>1为标准分别筛选出肝癌与正常组织的差异表达基因。
1.3 肝癌差异表达关键基因的筛选
将各数据集筛选出的差异表达基因用RRA法进行排序,筛选出差异表达的关键基因。
2 结果
2.1 差异表达基因的筛选
在P<0.05和log(差异倍数)>1的条件下,GSE45267、GSE45436、GSE76427和GSE62232分别得到了543、1176、394和1147个差异表达基因,上调基因分别为181、413、64和461个,下调基因分别为362、763、330和686个。绘制的差异基因表达火山图如图l所示。
2.2 Robust Rank Aggregation法筛选肝癌差异表达的关键基因
通过对四组数据集的差异表达基因筛选,共获得269个差异表达基因(肝癌/癌旁正常组织),其中上调基因76个,下调基因193个。并分别将排名前10的上调及下调差异基因制作差异表达基因的热图(图2)。
3 讨论
随着肿瘤分子医学、高通量测序以及基因芯片技术的发展,越来越多的致病基因被发现,如何从浩如烟海、错综复杂的数据中筛选出关键致病基因作为判断患者预后指标和临床治疗靶点,成为摆在医学科学家面前的一个难题。为筛选可作为肝癌诊断的关键基因和治疗靶点,本研究利用生物信息学分析方法对GEO数据库下载的四组肝癌和癌旁组织生物芯片数据进行分析,分别筛选出肝癌组织与正常组织的差异表达基因,结果发现不同数据集筛选出的差异基因数量及种类排序都存在很大差异。这与国内外其他研究结果类似[5-9]。提示针对肝癌基因芯片数据检测,不同实验人员、实验条件和实验对象可得出的结果存在很大差别,因此,采用一种统计方法筛选出这些实验共同存在的差异基因,可能对发现肝癌关键的差异表达基因至关重要。
我们进一步通过RRA法共获得269个差异表达基因,其中上调基因76个,下调基因193个。上调基因包含GPC3、ASPM、CAP2和KIF2 0A等,具体上讲,GPC3是一种存在于细胞膜上的硫酸乙酰肝素糖蛋白,它参与调控细胞生长、繁殖、分化、迁移和粘附等生物学行为,主要表达于中胚层来源的组织,在成熟的组织中低表达或不表达。多项研究结果证实GPC3蛋白在肝癌组织中高表达,而在正常肝组织中不表达或表达量极低[10-13];ASPM也被用来作为肝癌血管侵袭性强、早期复发以及不良预后的指标[14];CAP2表达升高有望用于早期发现甲胎蛋白隐性的肝癌患者[15],而KIF20A在肝癌患者中高表达也预示总生存期和无瘤生存期显著缩短[16]。下调基因包含HAMP、CLECIB、FCN3和CLEC4G等。HAMP基因编码的蛋白质为铁调素,在机体内铁平衡的调节中起到负性调节的作用,研究发现它在肝癌组织中低表达[17],CLECIB是血小板相关的分子,与肝癌瘤内出血相关,尽管其具体作用仍不清楚,但研究显示它在肝癌组织中表达下调[18,19];另外,FCN3和CLEC4G基因在肝癌组织中也呈低表达[20,21]。
綜上所述,本文采用RRA法对四组肝癌基因芯片数据进行挖掘分析,筛选出肝癌与癌旁正常组织的关键差异表达基因,该研究有望为肝癌发生的机制研究、肿瘤标志物的筛选及治疗靶点的选择提供参考。在以后的研究中,仍需进一步的分子实验加以验证。
参考文献
[l]McGlynn KA, Petrick JL, LondonWT. Global epidemiology ofhepatocellular carcinoma: anemphasis on demographic andregional variability [J]. ClinLiver Dis, 2015,19(02):223-238.
[2]Cronin KA, Ries LA, Edwards BK.The Surveillance, Epidemiology,and End Results (SEER) Program ofthe National Cancer Institute[J].Cancer, 2014,120 Suppl 23: 3755-3757.
[3]Kolde R, Laur S, Adler P, ViloJ. Robust rank aggregation forgene list integration and Metaanalysis [Jl. Bioinformatics,2012,28 (04): 573-580.
[4]Vosa U, Kolde R, Vilo J, et al.Comprehensive Meta-analysis ofmicroRNA expression using a robustrank aggregation approach [J].Methods Mol Biol, 2014, 1182: 361-373.
[5]白文萱,高健,钱程等,肝癌相关差异表达基因的生物信息学分析[J].中华肝脏病杂志,2017, 25 (06): 435-437.
[6]高冰,宁淑芳,唐艳萍等,人肝癌组织及癌旁正常肝组织的mRNA差异表达谱[J].世界华人消化杂志,2014 (31): 4734-4744.
[7] Mou T, Zhu D, Wei X, et al.Identification and interactionanalysis of key genes and microRNAsin hepatocellular carcinoma bybioinformatics analysis [Jl. WorldJ Surg Oncol, 2017,15 (01):63.
[8] Zhang C, Peng L, Zhang Y,etal. The identification ofkey genes and pathways inhepatocellular carcinoma bybioinformatics analysis ofhigh-throughput data [Jl. MedOncol, 2017, 34 (06): 101.
[9]Shi SQ, Ke JJ, Xu QS, et al.Integrated network analysisto identify the key genes,transcription factors,and microRNAs involved inhepatocellular carcinoma [J] .Neoplasma, 2018, 65 (01) : 66-74.
[lO]El-Wahab NM, Rashed HG, El-Sherif WT, et al. Glypican-3 andMelanoma Antigen Genes l and 3 asTumor Markers for HepatocellularCarcinoma [Jl. Egypt J Immunol,2017,24(02):187-200.
[ll]Liu H, Yang C, Lu W, et al.Prognostic significance ofglypican-3 expression inhepatocellular carcinoma: A Meta-analysis[Jl. Medicine (Baltimore),2018, 97 (04): e9702.
[12]Tahon AM, El-Ghanam MZ, Zaky S,etal. Significance of Glypican-3 inEarly Detection of HepatocellularCarcinoma in CirrhoticPatients [J]. J GastrointestCancer, 2018, [Epub ahead ofprint].
[13]2hang J, Zhang M, Ma H, et al.Overexpression of glypican-3 isa predictor of poor prognosisin hepatocellular carcinoma: Anupdated Meta-analysis [J] . Medicine(Bal t imore) , 2 018, 97 (24) : elll 3 0.
[14]Lin SY, Pan HW, Liu SH, etal. ASPM is a novel markerfor vascular invasion, earlyrecurrence, and poor prognosis ofhepatocellular carcinoma [J]. ClinCancer Res, 2008, 14 (15) : 4814-4820.
[15]Shibata R, Mori T, Du W, etal. Overexpression of cyclase-associated protein 2 in multistagehepatocarcinogenesis [J] .
ClinCancer Res, 2006,12 (18): 5363-5368.
[16]Lu M, Huang X, Chen Y, et al.Aberrant KIF20A expression mightindependently predict pooroverall survival and recurrence-free survival of hepatocellularcarcinoma [J] . IUBMB Life,2018, 70 (04): 328-335.
[17]Kijima H, Sawada T, TomosugiN,et al. Expression of hepcidinmRNA is uniformly suppressed inhepatocellular carcinoma [J]. BMCCancer, 2008, 8: 167.
[18]Critelli R, Milosa F, FaillaciF, et al. Microenvironmentinflammatory infiltrate drivesgrowth speed and outcome ofhepatocellular carcinoma: aprospective clinical study [Jl.Cell Death Dis, 2017, 8 (08) : e3017.
[19] Hu K, Wang ZM, Li JN, et al.CLECIB Expression and PD-Ll Expression Predict ClinicalOutcome in HepatocellularCarcinomawithTumorHemorrhage [J] .