一起来分析中国人的TNBC队列多组学数据吧(仅限100名)
看到标题进来的,肯定是知道TNBC(三阴性乳腺癌)的定义的,详见:https://mp.weixin.qq.com/s/wWFYLBIfexaP1PuhqgcA9w
乳腺癌是高度异质性疾病,临床分期及病理分级相同
的患者对治疗的反应和预后大不相同。
但是目前仍然是根据临床病理特点如HER2表达、雌激素受体状态、肿瘤大小、分级和淋巴结转移等选择辅助治疗,包括化疗,内分泌治疗,抗HER2治疗等。
高通量表达数据出来后分类方法非常多,与传统的TNM分期、临床病理指标相比,多基因预测系统能提供更准确的预后信息,并为选择治疗方案提供更加可靠的参考,是肿瘤精准治疗的重要突破方向。最值得学习的是美国FDA批准的两多基因检测系统是Oncotype Dx 21基因检测和MammaPrint 70基因检测,最出名的分类就是PAM50分型。
目前TNBC是BRCA里面预后最差的, 所以关于它的研究比较火热,但是根据基因表达进行分子分型的到不多,值得系统性的通读一遍,争取完全掌握该小领域的研究脉络。其实TNBC是临床病理分类(基于IHC结果),它与分子分型(PAM50)的 basel-like
组别重合度很高。
TNBC继续分组的历史
TNBC本身也具有异质性,还可以根据不同组学数据进行细分。
最早也是出名的是Lehmann的2011那篇JCI的芯片整合分析文章,还开发了网页工具:http://cbc.mc.vanderbilt.edu/tnbc/ 可以得到 7 subtypes (BL1, BL2, M, IM, MSN, LAR) , 1 unstable subtype (UNS). 后来他们重新分析数据,划分为4组。
发表在 Clin Cancer Res. 2013 October的 文章 Differential response to neoadjuvant chemotherapy among 7 triple-negative breast cancer molecular subtypes , 纳入了146个TNBC的表达芯片数据,作者首先重复Lehmann的2011的研究,可以比较好的区分出 BL1, M, IM, MSL, and LAR 亚型,但是BL2 and UNS就比较模糊。
发表在Clin Cancer Res 2015 ,贝勒医学院研究小组的 Burstein 等人对自己的数据,198个TNBC病人芯片表达矩阵,使用80个核心基因进行分组,得到4个TNBC的亚型。这个就是我在2018年第46周文献分享,TNBC亚型的研究:https://zhuanlan.zhihu.com/p/49574829
还有另外一个值得一提的分子分型文章发表在 Breast Cancer Research (2015) :Gene-expression molecular subtyping of triple-negative breast cancer tumours: importance of immune response,数据在 GSE58812, 法国研究团队的等人使用 适应性的Fuzzy-clustering 把107个TNBC患者分成3类:
luminal androgen receptor (22%)
basal-like with low immune response and high M2-like macrophages (45%)
basal-enriched with high immune response and low M2-like macrophages (33%).
同时也分析公共数据集GSE21653 进行验证,效果非常好。
全球最大的三阴性乳腺癌队列多组学数据有多大
研究团队针对465例三阴性乳腺癌标本展开研究,绘制出全球最大的三阴性乳腺癌队列多组学图谱。通过对庞大基因数据的分析,研究团队证实三阴性乳腺癌的确不是传统认识中的单一类型——三阴性乳腺癌不仅拥有自己的“家族”,家族中有不同的亚型,且不同亚型之间可能存在生存差异、对不同治疗方案敏感性不同。纳入的病人是:
A final cohort of 465 patients were available for analysis
279 had whole exome sequencing (WES) data on primary tumor tissue and paired blood samples
401 had copy-number alteration (CNA) data
360 had RNA sequencing data on primary tumor tissue.
详见:https://mp.weixin.qq.com/s/wWFYLBIfexaP1PuhqgcA9w 下载后文件夹是:
5.8T raw_fq/
5.4T clean/
下载数据后,也进行了一些常规的分析,简单给大家看看分析结果,然后邀请对这个数据集感兴趣的朋友加入一起分析。
原始数据很多接头序列,如下:
我们当然是去除啦。
转录组数据的GC含量有点魔性:
众筹转录组数据分析
我在代办生物信息学服务器里面列的很清楚:https://mp.weixin.qq.com/s/WT0Qhubrbl_-e7PJbGBlNw
32线程 + 32g内存 + 16T硬盘 ==> 2.6万
32线程 + 64g内存 + 32T硬盘 ==> 3.4万
小课题组想分析组学数据并不是不可能,不过上面我提到过,原始数据就好几个T了,自己的笔记本台式机肯定不行啦,但是只需要几万块钱
就能hold住这个花费近100万的全球最大的三阴性乳腺癌队列多组学数据。
如果你确实没有经费买一个小小的服务器,但是又想感受一下这个组学队列数据分析的魅力,现在机会来了。