全新细胞系模型的提出也需要ngs数据支持 / 开普饭

很多《生信技能树》的粉丝虽然一直在关注我们，但是他们总觉得我们这样的数据处理很遥远，感觉自己可能一辈子都不会接触ngs组学，纯粹的动物实验分子实验操作。

实际上你的关注本身就说明了问题，只不过呢你欠缺那临门一脚，人生很长，你的科研生涯可能还有35年之久，你现在学会数据处理，这个技能的掌握其实是最大化受益！现在，哪怕是全新细胞系模型的提出也需要ngs数据支持啦，比如文章：《Establishment and Characterization of a Brca1−/−**, p53**−/− Mouse Mammary Tumor Cell Line》

主要是基于一个已有的基因工程小鼠模型，Genetically engineered mouse models of cancer (GEMMC) ，就是 K14cre; Brca1F/F; p53F/F mice ，从里面经过各种复杂的实验技术养成细胞系。但是仍然是大篇幅描述了他们是如何利用好ngs数据来完善他们的生物学故事。主要是一个WGS测序数据，其数据分析描述如下：

WGS测序数据数据分析

数据也是公开可以获取的，可以参考：使用ebi数据库直接下载fastq测序数据 , 需要自行配置好，然后去EBI里面搜索到的 fq.txt 路径文件：

项目地址是：https://www.ebi.ac.uk/ena/browser/view/PRJEB36418

脚本如下：

# conda activate download # 自己搭建好 download 这个 conda 的小环境哦。 cat fq.txt |while read id do ascp -QT -l 300m -P33001 \ -i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \ era-fasp@$id . done # nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件，来批量下载fastq测序数据文件。虽然仅仅是一个样品，但是我这里仍然是使用了批量下载哦！

主要的数据分析结果图表，如下所示：

突变上下文碱基组合

Sanger研究所科学家【1】提出来了肿瘤somatic突变的signature概念，把96突变频谱的非负矩阵分解后的30个特征，在cosmic数据库可以查询到的30个特征。不同的特征有不同的生物学含义【2】，比如文章【3】就是使用了这些signature区分生存！

【1】https://software.broadinstitute.org/cancer/cga/msp
【2】https://en.wikipedia.org/wiki/Mutational_signatures
【3】https://www.nature.com/articles/s41586-019-1056-z

拷贝数变异作者仅仅是展现了自己关注的基因组区域；

拷贝数变异

我在教程：比较不同的肿瘤somatic突变的signature 也分享了如何比较不同方法拿到的signature，这样它们的生物学意义就可以联系起来了。主要是R包deconstructSigs可以把自己的96突变频谱对应到cosmic数据库的30个突变特征。如下所示：

突变特征频谱

学徒作业

下载这个PRJEB36418里面的测序数据，就两个文件而已：

fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_1.fastq.gz fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_2.fastq.gz

然后比对到小鼠参考基因组，并且使用GATK找到变异位点后，复现这个文章里面的3个图表！

完成学徒作业，以markdown笔记的形式发到我邮箱，我会抽时间集中检查，挖掘其中足够优秀的小伙伴进行重点培养，给与更高级的学习资料或者个性化的学习指引，并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力。

加油哦，我的邮箱是 jmzeng1314@163.com ，另外两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募

全新细胞系模型的提出也需要ngs数据支持

学徒作业

相关推荐