你可能不适合做人(学徒给我的6个暴击)
正文分割线
给学徒布置任务,根据我的教程使用salmon流程走一波airway这个转录组数据集,很快就出了结果,为了检查他数据处理的结果准确性,就把我两年前跑的结果给到他,然后让比较一下两个表达矩阵的相关性,结果出乎我意料!学习视频在:https://share.weiyun.com/5sh27An
不同流程的表达矩阵居然有批次效应
如下,可以看到我们两个人的表达矩阵,很清晰的分成了两个组:
主成分分析也是如此:
这个是不应该的,理论上来说,不同样本之间是有表达差异的,所以相关性不能太高,而同一个样本在不同流程理论上应该是不能变化太大的。
换一个数据集
起初,我怀疑是数据集的问题,所以让他继续跑了另外一个数据集,就是2018的果蝇的,同样的那个我也是有salmon流程结果,然后继续让他比较他今天的结果和我之前的结果的差异。
这个时候就清晰的看到,同样的一个样本,在salmon流程不同软件版本不同参考转录组得到的表达矩阵差异是很小的。
那么前面的表达矩阵出了什么情况呢
随便检查一个样本的两次流程的表达量差异情况:
真的是很震惊啊,一个基因表达量差异之大,如云泥之别!
最简单的办法是直接载入bam到igv去查看该基因
很简单的网页工具拿到其基因名字:https://www.ensembl.org/id/ENSG00000167658 是 EEF2 (HGNC Symbol) 所以IGV定位查看:
为什么明明是高表达基因被搞成了低表达呢?
毫无疑问,学徒肯定是跑流程的时候做错了什么,我让他自己去思考,为什么跑人类的这个数据集有问题,而跑果蝇就ok呢?
以上就是我带学徒的过程,如果你看不出来我做了什么指导,你可能不适合做学徒,麻烦绕行,不要浪费我的时间,谢谢!
补充一下超级VIP入场券,并不是花钱就一定可以买,我有要去的:
首先:预留时间接受培养,可以是全日制脱产一个月以上或者周六日长期加入学习小组。 其次:请精心制作好简历(主要是教育背景和项目经验),以及两份推荐信(不限推荐人身份) 。 最后:基本道德素养 【积极进取,诚实守信,责任心强!!!】
赞 (0)