B站课程《三阴性乳腺癌表达矩阵探索》笔记之文献解读
学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!(视频观看方式见文末)
文献解读1:Comprehensive Genomic Analysis Identifies Novel Subtypes and Targets of Triple-negative Breast Cancer
本次文献解读涉及到三篇文章。这里要解读的第一篇是创建数据集的文章,后面的两篇文章在第一篇文章的数据集基础上进行了探索。
PMID: 25208879 PMID: 26921331 PMID: 30175120
文章摘要
数据集(GEO:GSE76275)
Discovery set | Validation set | Public TNBC dataset |
---|---|---|
84 | 114 | 7 |
分类,得到四种亚型 | 验证这种分类的可靠性 | 公共数据验证 |
结果:最后分类得到四个不同的亚型,而且这四个亚型分别具有不同的遗传意义(文章高分亮点)
亚型 | 亚型特异性的靶点 |
---|---|
Luminal-AR(LAR) | androgen receptor(雌性激素受体)和cell surface mucin MUC1( 细胞表面黏蛋白) |
Mesenchymal (MES) | growth factor receptor (PDGF 受体A;c-Kit)生长因子受体 |
Basal-like Immune-Supressed (BLIS) | immune suppressing molecule (VTCN1)免疫抑制分子 |
Basal-like Immune-Activated (BLIA) | Stat signal transduction molecules (Stat 信号传导分子)和 cytokines(细胞因子) |
背景知识介绍
了解TNBC的定义,其分类根据IHC(Immunohistochemistry, 免疫组化染色)
TNBC这个概念在临床应用很适合,但是在肿瘤分子水平研究中,这样的定义太过宽泛 免疫组织化学(IHC)测定显示ER(estrogen receptor)和PR(progesterone receptor)的表达<=1%,IHC 测定的Her2(human epidermal growth factor receptor 2)结果为0至1+,或者IHC 2+, 单荧光原位杂交(FISH)结果阴性(无扩增) basal-like 乳腺癌占所有TNBC的47-88%
basal-like是从分子表达的角度来看,TNBC是从病理切片染色的角度看,并不等同。basal-like才是真正的乳腺癌的阳类, TNBC只是病理的片子而已。 两种TNBC的类分类比较:(6类)
subtypes of TNBC by Lethman Subtypes of TNBC by Bursten Basal-like1 (BL-1)\n Basal-like (BL-2) Basal-like Immune-Supressed (BLIS) Immunormodulatory(IM) Basal-like Immune-Activated (BLIA) Mesenchymal-like (ML)\nMesenchymal stem-like (MSL-L) Mesenchymal (MES) Luminal androgen receptor (LAR) Luminal-AR(LAR)
重要的分析方法
芯片平台在后续下游分析的探针注释中要用到
Affymetrix U133 Plus 2.0在NCBI数据库中对应的平台名是“GPL570”,在R中对应的软件包是 hgu133plus2.db
affy
package in R做表达量分析Illumina 610k 做SNP ==Notes== (生物信息学的两个最重要应用,一是看表达量,而是看是否发生突变) PAM50 Breast Cancer Intrinsic Classifier(分类器)
挑选差异基因的方法,
通过R包
DEDS
(Differential Expression via Distance Summary)top 1000 median-centered genes
R包Non-negative Matrix Factorization (
NMF
)获得18209个基因
IPA
软件(Ingenuity System' Interactive Pathway Analysis) 来做注释分析拷贝数分隔和分析:
ASPCF(Allele-Specific Piecewise Constant Fitting) ASCAT (Allele-Specific Copy Number (CN) Analysis of Tumors),需要芯片表达数据 CISTIC (Genomic Identification of Significant Targets in Cancer),检查拷贝数变化 生存分析:
DFS (disease-free survival) OS(overall survival ) WGCNA (Weighted gene correlation network analysis)是一个非常强大的网络分析工具,这些工具可以被用来识别发生在样本之间的高度相关的基因群体。因此基因可以被分为模块,而且这些模块可以通过其他的特征(必须是连续变量)联系在一起
可用来做WGCNA的指标:Stage I-III, purity of tumor , the size of tumor 以及age,可以用来做WGCNA,找到跟这些指标相关的基因集 进行分类
NMF
(Non-negative Matrix Factorization),非负矩阵分解,一种特殊的聚类SigClust(Significance of Clustering)
PAM50进行分类可以将其分为
luminal A luminal B HER-2-positive basal-like normal-like subtypes
生物学意义
通过通路注释得出结论,因为每个亚类都有很多基因参与到相关的生物学过程
Subtype1 (Lumminal/ Androgen Receptor, LAR subtype)可以对传统的抗雌激素(anti-estrogen)治疗以及抗雄激素(anti-androgens)的治疗方法做出应答 Subtype2( Mesenchymal,MES), 富集到在乳腺癌中有调控作用的通路,而且对于骨细胞(OGN)和脂肪细胞(ADIPOQ)以及重要的生长因子(IGF-1)特异性的基因在这个亚型中都高表达,具有“Mesenchymal stem-like”或者“claudin-low"的一些性质 Subtype3(Basal-like Immune Suppressed, BLIS), 这个亚型有最糟糕的DFS和DDS,而且调控抗原传递,免疫细胞分化以及先天和适应性免疫细胞交流。但是,这个类群特有地表达多个SOX家族转录因子 Subtype4(the Basal-Like Immune Activated, BLIA)。在这个亚型中,调控B细胞,T细胞以及自然杀手细胞功能的基因表达上调。有最好的预后,STAT转录因子介导的信号通路被激活,而且有高表达的STAT基因
文献解读二:Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival
==Note== 这篇文献是在上一篇文献的基础上做了生存分析
背景知识:
摘要
102个病人,分组为TNBC(49)和ER-positive(53) 相比于ER-positive,TNBC中有146个磷酸化相关的酶都表达了 以细胞系为模型来进行研究,TNBC和ER-positive各四个细胞系(参考文献Breast Cancer Cell Line Classification and Its Relevance with Breast Tumor Subtyping)
三阴性乳腺癌的定义
15-20% 的乳腺癌并没有表达ER,PR或者HER2,称为三阴性乳腺癌(Triple-Negative Breast Cancer, TNBC)。临床对TNBC的定义为,通过细胞表面的ER,PR,HER2受体的表达量来确定。分子学的定义为,检测控制ER、PR、HER2受体表达的基因是否表达量低。
特征:侵略性强,预后差
RMA(Robust Multi-array Average) , 应用于Affymetrix的三步标准化流程。
background correction (背景校正) quantile normalisation (分位数标准化) summarization (归纳) 在观察生物学变异的时候,标准化的数据可以被用来控制阵列之间的技术误差
后续重复文章结果需要使用相同的参数
FDR (False Discovery Rate)<0.05 Fold change >= 1.5, increased expression qRT-PCR 来进行实验验证
Growth assays :通过观察细胞生长的快慢来判断癌症细胞的活力
Survival Analysis: 生存分析
R语言 Oncomine database(专门研究与癌症相关的数据库): 生成Kaplan-Meier survival curve log rank (Mantel-Cox): 确定统计学意义 Cox proportional hazards 模型分析 文章亮点:
146磷酸化酶基因差异性表达(82个上调,64个下调,p<0.05)==曾老师提醒==:只有那些不符合统计学规律的东西,才有研究的意义。p<0.05说明这种现象不太可能发生,我们关注的应该是这些异常现象。 缩小范围,最后找到四个对TNBC 不依赖贴壁性生长特别重要的磷酸化酶(PTP4A3, PPAP2B, CDC25B, TIMM50)
文献解读三:Identification of Key Genes and Pathways in Triple-Negative Breast Cancer by Integrated Bioinformatics Analysis
摘要
找差异基因简答总结一下就是:对数据集进行分组,找到上调和下调的基因,注释到数据库,并解释其生物学意义
数据集
non-TNBC TNBC 67 198 分析方法
基因主要富集到卵母细胞减数分裂(Oocyte meiosis)这个KEGG通路 找出差异基因(fold change >=1.5,p<0.01),56个上调,151个下调
GO和KEGG注释(
DAVID
软件)PPI(Protein-Protein Interaction) 网络构建(STRING database,
Cytoscape
的MCODE
插件)整合TCGA来做生存分析 (
METABRIC
)
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC
然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!
扫描下面二维码马上就可以学习起来啦,笔记需要至少半个小时来阅读哦!