B站课程《三阴性乳腺癌表达矩阵探索》笔记之文献解读

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!(视频观看方式见文末)

下面是《GEO数据挖掘课程》的配套笔记

文献解读1:Comprehensive Genomic Analysis Identifies Novel Subtypes and Targets of Triple-negative Breast Cancer

本次文献解读涉及到三篇文章。这里要解读的第一篇是创建数据集的文章,后面的两篇文章在第一篇文章的数据集基础上进行了探索。

  1. PMID: 25208879
  2. PMID: 26921331
  3. PMID: 30175120

文章摘要

数据集(GEO:GSE76275)

Discovery set Validation set Public TNBC dataset
84 114 7
分类,得到四种亚型 验证这种分类的可靠性 公共数据验证

结果:最后分类得到四个不同的亚型,而且这四个亚型分别具有不同的遗传意义(文章高分亮点

亚型 亚型特异性的靶点
Luminal-AR(LAR androgen receptor(雌性激素受体)和cell surface mucin MUC1( 细胞表面黏蛋白)
Mesenchymal (MES) growth factor receptor (PDGF 受体A;c-Kit)生长因子受体
Basal-like Immune-Supressed (BLIS) immune suppressing molecule (VTCN1)免疫抑制分子
Basal-like Immune-Activated (BLIA) Stat signal transduction molecules (Stat 信号传导分子)和 cytokines(细胞因子)

背景知识介绍

  • 了解TNBC的定义,其分类根据IHC(Immunohistochemistry, 免疫组化染色)

    • TNBC这个概念在临床应用很适合,但是在肿瘤分子水平研究中,这样的定义太过宽泛
    • 免疫组织化学(IHC)测定显示ER(estrogen receptor)和PR(progesterone receptor)的表达<=1%,IHC 测定的Her2(human epidermal growth factor receptor 2)结果为0至1+,或者IHC 2+, 单荧光原位杂交(FISH)结果阴性(无扩增)
  • basal-like 乳腺癌占所有TNBC的47-88%

    Basal-like和TNBC的区别
    • basal-like是从分子表达的角度来看,TNBC是从病理切片染色的角度看,并不等同。basal-like才是真正的乳腺癌的阳类, TNBC只是病理的片子而已。
  • 两种TNBC的类分类比较:(6类)

    subtypes of TNBC by Lethman Subtypes of TNBC by Bursten
    Basal-like1 (BL-1)\n Basal-like (BL-2) Basal-like Immune-Supressed (BLIS)
    Immunormodulatory(IM) Basal-like Immune-Activated (BLIA)
    Mesenchymal-like (ML)\nMesenchymal stem-like (MSL-L) Mesenchymal (MES)
    Luminal androgen receptor (LAR) Luminal-AR(LAR

重要的分析方法

  • 芯片平台在后续下游分析的探针注释中要用到

    • Affymetrix U133 Plus 2.0在NCBI数据库中对应的平台名是“GPL570”,在R中对应的软件包是hgu133plus2.db
    • affy package in R做表达量分析
    • Illumina 610k 做SNP ==Notes== (生物信息学的两个最重要应用,一是看表达量,而是看是否发生突变)
  • PAM50 Breast Cancer Intrinsic Classifier(分类器)

  • 挑选差异基因的方法,

    • 通过R包DEDS(Differential Expression via Distance Summary)

    • top 1000 median-centered genes

    • R包Non-negative Matrix Factorization (NMF)

    • 获得18209个基因

  • IPA软件(Ingenuity System' Interactive Pathway Analysis) 来做注释分析

  • 拷贝数分隔和分析:

    • ASPCF(Allele-Specific Piecewise Constant Fitting)
    • ASCAT (Allele-Specific Copy Number (CN) Analysis of Tumors),需要芯片表达数据
    • CISTIC (Genomic Identification of Significant Targets in Cancer),检查拷贝数变化
  • 生存分析:

    • DFS (disease-free survival)
    • OS(overall survival )
  • WGCNA (Weighted gene correlation network analysis)是一个非常强大的网络分析工具,这些工具可以被用来识别发生在样本之间的高度相关的基因群体。因此基因可以被分为模块,而且这些模块可以通过其他的特征(必须是连续变量)联系在一起

    • 可用来做WGCNA的指标:Stage I-III, purity of tumor , the size of tumor 以及age,可以用来做WGCNA,找到跟这些指标相关的基因集
  • 进行分类

    • NMF(Non-negative Matrix Factorization),非负矩阵分解,一种特殊的聚类

      非负矩阵分解
    • SigClust(Significance of Clustering)

  • PAM50进行分类可以将其分为

    • luminal A
    • luminal B
    • HER-2-positive
    • basal-like
    • normal-like subtypes

生物学意义

通过通路注释得出结论,因为每个亚类都有很多基因参与到相关的生物学过程

  • Subtype1 (Lumminal/ Androgen Receptor, LAR subtype)可以对传统的抗雌激素(anti-estrogen)治疗以及抗雄激素(anti-androgens)的治疗方法做出应答
  • Subtype2( Mesenchymal,MES), 富集到在乳腺癌中有调控作用的通路,而且对于骨细胞(OGN)和脂肪细胞(ADIPOQ)以及重要的生长因子(IGF-1)特异性的基因在这个亚型中都高表达,具有“Mesenchymal stem-like”或者“claudin-low"的一些性质
  • Subtype3(Basal-like Immune Suppressed, BLIS), 这个亚型有最糟糕的DFS和DDS,而且调控抗原传递,免疫细胞分化以及先天和适应性免疫细胞交流。但是,这个类群特有地表达多个SOX家族转录因子
  • Subtype4(the Basal-Like Immune Activated, BLIA)。在这个亚型中,调控B细胞,T细胞以及自然杀手细胞功能的基因表达上调。有最好的预后,STAT转录因子介导的信号通路被激活,而且有高表达的STAT基因

文献解读二:Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival

==Note== 这篇文献是在上一篇文献的基础上做了生存分析

背景知识:

癌症亚型

摘要

  • 102个病人,分组为TNBC(49)和ER-positive(53)
  • 相比于ER-positive,TNBC中有146个磷酸化相关的酶都表达了
  • 以细胞系为模型来进行研究,TNBC和ER-positive各四个细胞系(参考文献Breast Cancer Cell Line Classification and Its Relevance with Breast Tumor Subtyping)

三阴性乳腺癌的定义

  • 15-20% 的乳腺癌并没有表达ER,PR或者HER2,称为三阴性乳腺癌(Triple-Negative Breast Cancer, TNBC)。临床对TNBC的定义为,通过细胞表面的ER,PR,HER2受体的表达量来确定。分子学的定义为,检测控制ER、PR、HER2受体表达的基因是否表达量低。

  • 特征:侵略性强,预后差

  • RMA(Robust Multi-array Average) , 应用于Affymetrix的三步标准化流程。

    • background correction (背景校正)
    • quantile normalisation (分位数标准化)
    • summarization (归纳)
  • 在观察生物学变异的时候,标准化的数据可以被用来控制阵列之间的技术误差

  • 后续重复文章结果需要使用相同的参数

    • FDR (False Discovery Rate)<0.05
    • Fold change >= 1.5, increased expression
  • qRT-PCR 来进行实验验证

  • Growth assays :通过观察细胞生长的快慢来判断癌症细胞的活力

  • Survival Analysis: 生存分析

    生成分析
    • R语言
    • Oncomine database(专门研究与癌症相关的数据库): 生成Kaplan-Meier survival curve
    • log rank (Mantel-Cox): 确定统计学意义
    • Cox proportional hazards 模型分析
  • 文章亮点:

    • 146磷酸化酶基因差异性表达(82个上调,64个下调,p<0.05)==曾老师提醒==:只有那些不符合统计学规律的东西,才有研究的意义。p<0.05说明这种现象不太可能发生,我们关注的应该是这些异常现象。
    • 缩小范围,最后找到四个对TNBC 不依赖贴壁性生长特别重要的磷酸化酶(PTP4A3, PPAP2B,  CDC25B, TIMM50)

文献解读三:Identification of Key Genes and Pathways in Triple-Negative Breast Cancer by Integrated Bioinformatics Analysis

摘要

摘要重点
  • 找差异基因简答总结一下就是:对数据集进行分组,找到上调和下调的基因,注释到数据库,并解释其生物学意义

  • 数据集

    non-TNBC TNBC
    67 198
  • 分析方法

    • 基因主要富集到卵母细胞减数分裂(Oocyte meiosis)这个KEGG通路
    • 找出差异基因(fold change >=1.5,p<0.01),56个上调,151个下调

      火山图
    • GO和KEGG注释(DAVID软件)

    • PPI(Protein-Protein Interaction) 网络构建(STRING database, CytoscapeMCODE插件)

    • 整合TCGA来做生存分析 (METABRIC

      生存分析
视频观看方式

我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:

  • 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
  • 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
  • TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
  • GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
  • METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC

然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!

扫描下面二维码马上就可以学习起来啦,笔记需要至少半个小时来阅读哦!

(0)

相关推荐