TCGA数据分析系列(一)

肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。

TCGA中数据类型主要有以下几种

  1. mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

  2. microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

  3. Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息

  4. Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

  5. Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

  6. Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

  7. Methylation:甲基化芯片测得的DNA甲基化数据

TCGA的样本命名

  1. Project:所有TCGA样本名均以这个开头

  2. TSS: Tissue source site,组织来源编码
    详见组织来源编码

  3. Participant:参与者编号

  4. Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11

  5. Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据

  6. Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

  7. Analyte:分析的分子类型,对应关系如下所示

  8. Plate:在一系列96孔板中的顺序,值大表示制板越晚

  9. Center:测序或鉴定中心编码

TCGA数据下载方式

TCGA下载方式有很多种,主要包括

  1. R语言下载

  2. 官网下载

  3. 在线数据库下载

  4. 小工具下载
    以后我们会逐个介绍

TCGA在线分析数据库

TCGA在线分析数据库有已经很多,以后我们会选择既重要又好用的工具来学习

下回见。

(0)

相关推荐

  • 组织芯片的优劣势

    组织芯片相对于传统的组织切片优势十分明显,规模大.通量高.标准化,组织芯片上的组织样本实验条件完全一致,有极好的质量控制,同时节省时间.节省试剂更是显而易见.首先,统一实验条件下的组织芯片,可以排除一 ...

  • 100篇泛癌研究文献解读之病毒感染及整合到肿瘤病人基因里

    为了分析不同类型.组织起源肿瘤的共性.差异以及新课题.TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划.参考:https://www.ncbi.nlm.nih.gov ...

  • 【接地气小文章推荐二】组织和血浆外泌体中miRNA编辑差异与肺癌发生的相关性

    microRNA中的RNA编辑(RNA editing)现象是癌症中的新型生物标志之一.在这项研究中,俄亥俄州立大学的研究人员利用87个NSCLC(非小细胞肺癌)样本的miRNA测序数据来研究RNA编 ...

  • 科研 | 日本香川大学:MicroRNA-210-3p在乙型肝炎病毒相关的肝细胞癌中的作用

    编译:小北,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 肝细胞癌(HCC)是癌症引发死亡的第三个主要疾病,也是全球第五大常见的癌症.尽管肝细胞癌的早期临床治疗已有改观,但是受高复发因素的影响 ...

  • TCGA数据分析系列(二):数据库之GEPIA2

    所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的使用.今天我们来介绍一款非常容易上手的数库:GEPIA2:http://gepia2.cancer-pku.cn/#index 话不多 ...

  • TCGA数据分析系列(二):UALCAN数据库

    UALCAN:(http://ualcan.path.uab.edu/index.html)是一个综合的.用户友好的.交互式的web资源,用于分析癌症组学数据.UALCAN的设计目的是: 提供对公开的 ...

  • TCGA数据分析系列(二):LinkedOmics

    今天继续我们TCGA在线数据库系列.今天介绍的数据库是LinkedOmic,http://www.linkedomics.org/login.php可谓是航母级数据库,没有做不到的,只有想不到的.话不 ...

  • TCGA数据分析系列之火山图

    前面我们做了TCGA的差异分析,并且用ggplot2验证了差异分析的准确性,TCGA差异分析及ggplot作图验证,而差异分析后一般会又热图和火山图,热图我们之前也有说过热图系列1,R语言学习系列之& ...

  • TCGA数据分析系列 蛋白相互作用网络

    我们的TCGA数据分析系列已经出过几期 TCGA数据分析系列(一) TCGA数据分析系列(二):数据库之GEPIA2 TCGA数据分析系列(二):UALCAN数据库 TCGA数据分析系列(二):Lin ...

  • TCGA数据分析系列 零代码富集分析:ClueGO+CluePedia(1)

    前面我们出了一系列的TCGA数据分析教程 TCGA数据分析系列(一) TCGA数据分析系列(二):数据库之GEPIA2 TCGA数据分析系列(二):UALCAN数据库 TCGA数据分析系列(二):Li ...

  • TCGA数据分析系列:GEPIA2数据库

    所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的使用.今天我们来介绍一款非常容易上手的数库:GEPIA2:http://gepia2.cancer-pku.cn/#index 话不多 ...

  • TCGA数据分析系列:LinkedOmics数据库

    今天继续我们TCGA在线数据库系列.今天介绍的数据库是LinkedOmic,http://www.linkedomics.org/login.php可谓是航母级数据库,没有做不到的,只有想不到的.话不 ...

  • 场地数据分析系列教程-Bison (1)

    又是新的一周,制图教室和大家准时相见~ 对于建筑和景观专业的学生而言,场地的数据化分析是设计过程中不可忽略的重要环节,无论是对于地形坡度的分析亦或是对于土方量的估算,乃至地表径流等一系列的模拟,都可以 ...