全新细胞系模型的提出也需要ngs数据支持

很多《生信技能树》的粉丝虽然一直在关注我们,但是他们总觉得我们这样的数据处理很遥远,感觉自己可能一辈子都不会接触ngs组学,纯粹的动物实验分子实验操作。

实际上你的关注本身就说明了问题,只不过呢你欠缺那临门一脚,人生很长,你的科研生涯可能还有35年之久,你现在学会数据处理,这个技能的掌握其实是最大化受益!现在,哪怕是全新细胞系模型的提出也需要ngs数据支持啦,比如文章:《Establishment and Characterization of a Brca1−/−**, p53**−/− Mouse Mammary Tumor Cell Line

主要是基于一个已有的基因工程小鼠模型,Genetically engineered mouse models of cancer (GEMMC) ,就是 K14cre; Brca1F/F; p53F/F mice ,从里面经过各种复杂的实验技术养成细胞系。但是仍然是大篇幅描述了他们是如何利用好ngs数据来完善他们的生物学故事。主要是一个WGS测序数据,其数据分析描述如下:

WGS测序数据数据分析

数据也是公开可以获取的, 可以参考:使用ebi数据库直接下载fastq测序数据  , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:

  • 项目地址是:https://www.ebi.ac.uk/ena/browser/view/PRJEB36418

脚本如下:

# conda activate download 
# 自己搭建好 download 这个 conda 的小环境哦。
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001  \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   \
era-fasp@$id  .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件,来批量下载fastq测序数据文件。虽然仅仅是一个样品,但是我这里仍然是使用了 批量下载哦!

主要的数据分析结果图表,如下所示 :

突变上下文碱基组合

Sanger研究所科学家【1】提出来了肿瘤somatic突变的signature概念 ,把96突变频谱的非负矩阵分解后的30个特征,在cosmic数据库可以查询到的30个特征。不同的特征有不同的生物学含义【2】,比如文章【3】 就是使用了 这些signature区分生存!

  • 【1】https://software.broadinstitute.org/cancer/cga/msp
  • 【2】https://en.wikipedia.org/wiki/Mutational_signatures
  • 【3】https://www.nature.com/articles/s41586-019-1056-z

拷贝数变异作者仅仅是展现了自己关注的基因组区域;

拷贝数变异

我在教程:比较不同的肿瘤somatic突变的signature 也分享了如何比较不同方法拿到的signature,这样它们的生物学意义就可以联系起来了。主要是R包deconstructSigs可以把自己的96突变频谱对应到cosmic数据库的30个突变特征。如下所示:

突变特征频谱

学徒作业

下载这个PRJEB36418里面的测序数据,就两个文件而已:

fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_2.fastq.gz

然后比对到小鼠参考基因组,并且使用GATK找到变异位点后,复现这个文章里面的3个图表!

完成学徒作业,以markdown笔记的形式发到我邮箱,我会抽时间集中检查,挖掘其中足够优秀的小伙伴进行重点培养,给与更高级的学习资料或者个性化的学习指引,并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力。

加油哦,我的邮箱是  jmzeng1314@163.com ,另外两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募

(0)

相关推荐