检查多个测序样本是否来源于同一个病人

多组学分析大行其道的今天,同一个病人我们可以对其做多次不同技术的测序,比如TCGA计划就有不下8种数据:
  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array
对tcga那样的超大规模协同组织,样品弄混的事情可能很少发生,但是该做的质量控制仍然是必不可少的。对小课题组来说,怀疑自己的多个样品是否来自于同一个病人就很正常不过了,比如大清早我就在群里看到了这样的问题:
他对同一个病人做了hic和重测序,但是不确认是不是搞混了,其实很简单的,这些数据,都是可以比对到参考基因组,然后提取snp位点,看看相关性就好了!
germline的snp的相关性
这里借用一个队列研究,看中国人和高加索人,越南人的族群差异,方法描述如下:
理论上,不同地理区域的人之间的差异应该是要小于区域外的人。

细节知识点

  • SNP和SNV
  • dbSNP
  • 使用0,1,2这样的数值来编码野生型,杂合,纯合子位点
  • dendextend
其实,该文章进化树的形式展现结果并不好,如下:
其实可以改为PCA图,我在直播我的基因组就多次介绍过
当然了,也有造好的轮子来完成这样的检查哦,其实很早以前我就在生信技能树推荐过,但是找不到链接了。
如果你感兴趣这个五年前的直播活动,欢迎点击:直播我的基因组分析-目录-1-73集
推荐阅读

(0)

相关推荐