nature文章也要挖掘单细胞公共数据
我列过一个生物信息学入门200篇NGS文献解读计划,其中一个文献是发表于2018的NC,标题是:Unravelling subclonal heterogeneity and aggressive disease states in TNBC through single-cell RNA-seq 对
6个TNBC病人
总共测了 超过1500个单细胞 ,质控后还剩下1189个单细胞进入下游分析。使用的是FACS加上Smart-seq2 ,非常中规中矩的分析,所以就发了同样中规中矩的NC。
组会课题组的博士后分享了一篇nature文章,发表于2019年6月,题目是:CD24 signalling through macrophage Siglec-10 is a target for cancer immunotherapy 利用了这个数据集加入自己的生物学故事,应该是大家感兴趣的数据挖掘。
该nature文章从公共数据库的原始测序数据开始,自己构建表达矩阵,自己对细胞进行质量控制,自己走单细胞标准流程,就是5个R包,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 分析流程也大同小异:
step1: 创建对象
step2: 质量控制
step3: 表达量的标准化和归一化
step4: 去除干扰因素(多个样本整合)
step5: 判断重要的基因
step6: 多种降维算法
step7: 可视化降维结果
step8: 多种聚类算法
step9: 聚类后找每个细胞亚群的标志基因
step10: 继续分类
文章描述流程如下:
因为原文有标记细胞类群,也有marker,所以作者很容易出图如下:
就查看自己感兴趣的基因就好了,毕竟是要使用公共数据库来辅助自己的生物学故事啦。
同样的可以看到6个病人,他们的肿瘤细胞是具有病人异质性的,虽然整体是肿瘤细胞,但是病人与病人直接区分的很开,但是其它细胞就是细胞类型特异性很明显,多个病人的同一个细胞类型会被整合在一起。
热图展示每个细胞亚群的marker基因也是标配啦
本文不一样的是区分病人来看自己感兴趣的基因的表达情况。
希望这次分享对你的课题有帮助,尝试多看文献,毕竟地主家也缺余粮,毕竟6个病人1000多个细胞呢,不用白不用!
当然了,共数据库挖掘需要的基础linux和r技巧好好掌握。
视频都在B站,大家把R语言和linux一起学习,十万人观看的教学视频,你值得拥有:
书籍我推荐两本:
作业的话,力推我设计的5套习题,加油,在生物信息学的路上等大家!
最低要求是完成我的 linux 20题 http://www.bio-info-trainee.com/2900.html
其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书。
fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html