100篇泛癌研究文献解读之驱动lncRNA
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
本研究发表在 Nat Commun. 2016 Oct 的文章:Pan-cancer transcriptomic analysis associates long non-coding RNAs with key mutational driver events.
数据量
纳入了19种癌症的超过7000个病人的转录组和外显子数据,样本量分布如下:
分析流程
7,295 high-coverage RNA-seq libraries from 19 cancers, 示意图如下:
具体软件额参数如下:
数据分析重新注释后的lncRNA细分如下:
lncRNA的表达量特征
首先它的平均表达量是低于蛋白编码基因的
有极少数高表达量的lncRNA,占比如下:
表达量也可以把某些癌症区分开来:
lncRNA表达量受突变与否的影响
mRNA和lncRNA的表达量的相关性探索
TP53相关的lncRNA
关于 NFE2L2 (encoding the transcription factor NRF2)
自己做 NFE2L2 siRNA silencing in A549 转录组数据,做差异表达数据分析,56 lncRNAs and 1069 coding genes at qo0.01 using DESeq2,火山图如下:
发现 RP11-345L23.1 (also called LINC01564) 是 NFE2L2的靶基因,
后记
本研究的特点是自主流程分析TCGA原始测序数据,得到了lncRNA的表达信息,而且提供下载,理论上花费时间仔细研读该文章是可以复现这篇文章的数据分析结果的。
当然了,如果你想超脱于他们的泛癌计划已经发表的研究,那么就非常有必要跟着我读完这100篇泛癌文献!
详见我的100篇泛癌研究文献解读目录:http://www.bio-info-trainee.com/4132.html
TCGA教程长期更新列表
TCGA的28篇教程-使用R语言的cgdsr包获取TCGA数据(cBioPortal)
TCGA的28篇教程-使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)
TCGA的28篇教程-批量下载TCGA所有数据 ( UCSC的 XENA)