学会跨平台筛选肝癌预后标志物,上3分一点都不难
Front Genet (IF:3.517)杂志上的一篇文章“Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data”,作者利用多个测序平台的转录组数据去鉴定不依赖于测序平台的肝癌诊断标志分子。
Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data
利用大规模转录组数据鉴定不依赖于测序平台的肝癌诊断生物标记物
一.研究背景
确诊时间过迟是导致肝癌(Hepatocellular carcinoma,HCC)患者高死亡率的主要原因。为了找到普遍的在多个测序平台都适用的基于mRNA表达量的分子诊断标志,作者利用多个测序平台的HCC患者以及对照正常组织或癌旁正常组织的转录组数据,希望通过基因表达谱的分析找出肝癌核心基因并用于建立一个预测能力良好的肝癌预测模型。
二.分析流程
数据准备,从GEO数据库获取来自不同测序平台(Affymetrix,Illumina,Agilent,High-throughput sequencing)的29个转录组数据集,分别从其中的GSE102079分和GSE64041中提取出D1(HCC和癌旁正常组织)和D2(HCC和正常样本)共4个数据集,加上TCGA-LIHC的转录组数据一共32个转录组数据集。此外还取GSE36076,一个含20份PBMCs(外周血单核细胞)血液样本的转录组数据集,用于验证模型。所有测序平台的的基因mRNA表达量经log2处理。
数据分配
取27个GEO的转录组数据(n=2148)用于识别DEGs(差异表达基因)和提取特征基因(图1. A),其中20个为HCC与癌旁正常组织的比较,7个位HCC和正常样本的比较
取GSE25097(n=511,HCCvs正常样本)作为训练集用于建立预测模型,以另外2个GEO数据集,TCGA-LIHC以及血液样本作为验证集(图1. B)。每个数据集中的样本转录组数据经过quantile normalization
预测模型的检验以及评价指标,作者在训练集中进行10折交叉验证作为内部检验;在验证集中预测作为外部检验。模型评价指标有依赖阈值和不依赖阈值的参数指标
依赖阈值的参数指标包括Sensitivity(敏感度),Specifity(特异性),Accuracy(准确率)以及MCC(Matthew 相关系数),这些指标越接近于1则模型的准确性越好
不依赖的参数指标为AUROC,即ROC(受试者工作特征)曲线下的面积,AUROC越接近于1则模型的预测能力越好
图1. 样本数据分布情况
三.结果解析
1.识别肝癌的核心基因
在27个GEO数据集中分别识别DEGs(q<0.01),识别出DEGs共9954个;再通过比较找到26个在80%以上(22/27)数据集中都差异表达的基因作为“肝癌的核心基因”(表1)。这26个基因中14个在癌组织中表达上调,12个在癌组织中表达下调(在大部分数据集中)。之后根据这些DEGs进行GO分析,发现表达下调的DEGs在凝集素相关通路富集,而表达上调的DEGs在细胞周期相关的通路中富集。
表1. 26个肝癌核心基因
2.通过单基因预测模型筛选肝癌核心基因
在训练集GSE25097中用阈值法(threshold- based approach),即找到一个表达量作为阈值使预测模型在训练集中预测能力最好。将26个肝癌核心基因根据各自单基因预测模型的预测能力进行排名,排名前10的基因建立的单基因预测模型预测肝癌的Acc>0.85,MCC>0.75,AUROC>0.85,都有很好的预测能力(表2)。为了进一步减少核心基因数量,分别对这10个基因采用10折交叉验证法去评估其预测能力,挑选出5个基因(FCN3,CLEC1B,CLEC4M,PRC1和PBK)称之为稳定的HCC标志分子,在交叉验证中它们平均的Acc>0.9,AUROC>0.95。
表3. 以5个基因建立的分类模型预测能力
之后作者又通过两次wrapper特征选择法(包裹式)去掉了基因CLEC4M和PBK,以FCN3,CLE1B,PRC1这三个基因作为特征基因,这样模型的在训练集(内部经过10折交叉验证)和验证集中的Acc在0.95-0.98之间,AUROC面积在0.96-0.99之间,模型的预测能力进一步提升(表4)。作者之后也尝试了两个特征基因作为输入构建模型,但是预测能力在验证集中大幅下降故作者最后选择由这三个基因构建的预测模型。作者同时也展示这三个基因在训练集和三个验证集中的表达模式(图2)。
表4. 以FCN3,CLE1B,PRC1构建的分类模型预测能力
图2. 三个肝癌核心基因在训练集和3个验证集中的表达模式
4.在血液样本中验证三基因预测模型
本文目的在于研究一种简便的肝癌检测方法,因为前文的训练集和验证集都是HCC和癌旁正常组织或正常组织的对比,难以在日常检查中实施采样,而血液样本易得不侵入病人身体,故作者选取GSE36076这一个血液样本数据集(n=20)来验证三个基因作为输入的预测模型的效果(表5)。可以看到模型在对血液样本的预测中Acc为0.9,AUROC在0.91-0.96之间。说明三基因预测模型有较好的能力辨别HCC患者血液和正常血液样本。
表5. 三基因预测模型在血样样本中的预测能力
5.对三个肝癌核心基因进行生存分析确定预后价值
在TCGA-LIHC队列(n=374)中,分别根据FCN3,PRC1和CLEC1B基因mRNA表达量的平均值将病人分为高低表达组并用KM法对OS,DSS,DFS,PFS进行生存分析(图4,红色表示基因表达量大于平均值,蓝色则相反)。
图3. TCGA-LIHC队列的生存分析
在GSE14520队列(n=219)中,用同样方法将病人分为两组并用KM法对OS和DFS进行了生存分析(图5).从两个队列的生存分析结果可以看出肝癌组织中CLE1B和FCN3高表达预示着更好的预后;PRC1的低表达预示着更好的预后。除了对这三个特征基因进行生存分析,作者还对一些临床参数(年龄,性别,肿瘤分期等)做了单因素生存分析,发现肿瘤的分期在两个队列中有显著的预后价值而性别和年龄并没有显著的预后价值。最后作者将三个肝癌核心基因和临床数据结合,进行多因素生存分析,只有肿瘤分期是一个独立的预后因子(p<0.01),而年龄性别以及三个肝癌核心基因都不是独立的预后因子。
图4. GSE14520队列的生存分析
最后我们小结一下,本篇文章中作者从GEO和TCGA数据库选取了大量转录组数据,把在80%以上数据集中都识别出的DEGs作为肝癌核心基因并进行功能通路分析。之后根据单基因预测模型的效果选出5个稳定的HCC标志分子用于建立多基因预测模型;把5个基因的mRNA表达量作为输入,利用多种机器学习方法以及Wrapper法,通过内,外部验证,最终选定了3个基因作为预测肝癌的特征基因。最后再结合3个特征基因的生存分析便结束了本文的论证。好啦,今天的分享就告一段落了,我们下次再见。
还是和往常一样,后台回复「14a」,即可获取今天小编为大家解读的文献。我们一起期待下一篇精彩的文献吧!
▼▼是否遗漏了往期精彩生信解析没看呢?▼▼
生信思路
m6A热点
2.即将11+分的JHO:泛肿瘤中m6A和5mC与肿瘤免疫特征
肿瘤免疫微环境
单细胞测序
特定基因表达谱预后
4. Genome Med一文带你学会胚系突变与泛癌预后思路
干湿结合
ceRNA
生信杂志
1. 被“灌水”的Aging(IF=5.515)还能不能投??
4. 即将突破5分的Frontiers in Oncology是灌水杂志吗?
5. 博士毕业神器3+分纯生信杂志:平均一审只要一个月,年刊量1000+
编辑:炒年糕
校审:糯米饭