【直播】我的基因组57:最简陋的祖源分析

这……可能是最简陋的祖源分析了吧,没有之一。

前面我们学习了千人基因组的人群分布情况,也简单的看了看我自己的基因型在那2504个人的距离情况,但是只能定位到我是东亚人,没办法细分人种,是因为我挑的SNP位点不够好。所以我查阅了一些文献,找到了一篇文章,https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4784403/。

文章的作者精选了2318 SNPs能够最大化European, African and Asian 人种的差异,据作者所说,是非常适合做祖源分析的!

当然,并不是一定需要两千多的位点的,也有文章就挑选了30  ancestry informative markers (AIMs)  就可以了,from 282 SNPs screened from 30 phenotype-related genes based on the genotyping data of 658 samples from nine populations in the HapMap database.

https://www.ncbi.nlm.nih.gov/pubmed/25143275

FastPop软件: https://sourceforge.net/projects/fastpop/files/

  1. cd ~/biosoft

  2. # https://www.cog-genomics.org/plink2/data#merge_list

  3. mkdir fastpop && cd fastpop

  4. wget https://sourceforge.net/projects/fastpop/files/FastPop.tar.g

  5. wget https://jaist.dl.sourceforge.net/project/fastpop/FastPop_Instruction.pdf

  6. tar zxvf FastPop.tar.gz

就是几个R脚本,对我来说,其实重点反而是作者精选的那2318 SNPs位点。

这个脚本比较考验shell能力,而且运行非常慢,因为千人基因组计划的数据太多了!

  1. ls ~/annotation/variation/human/1000genomes/GRCh38/*gz |while read id

  2. do

  3. echo $id

  4. zcat $id |perl -alne 'BEGIN{open FH,"/home/jianmingzeng/biosoft/fastpop/FastPop/snp.txt";while(<FH>){chomp;$h{$_}=1};close FH}{print join("\t",$F[2],@F[9..$#F]) if exists $h{$F[2]}}'>>choose.genotype

  5. done

  6. cat ~/biosoft/fastpop/FastPop/snp.txt my.dbsnp.vcf |perl -alne '{$h{$_}=1;next unless exists $h{$F[2]};@tmp=split/:/,$F[9];print "$F[2]\t$tmp[0]"}'>fastpop.my.genotype

这样就做出了下面所示的数据文件,后台回复祖源分析可以获取这些文件,当然,我的基因型是不可能给你的啦,你可以去下载一个vcf(改名为my.dbsnp.vcf 就可以运行上面的代码了)即可。

用前面的PCA分析,结果如下:

很明显,这次的人群分开效果较好,虽然前两个的主成分作用力还是有限!

同样的,我还是把504个东亚人群拿出来单独看看:

前两个的主成分作用力更低了,但是已经比第一次只从千人基因组计划里面挑选1000个allele frequency为0.5的位点要好很多了!而且这次很明显可以看到日本人跟其余的东亚人距离比较远,应该是由于他们是在一个小岛上,比较封闭的原因吧。西双版纳的傣族人跟越南人也远离了南方汉族和北方汉族,但是中间的界限并不是那么的绝对!

很明显,我跟北方汉族和南方汉族更接近,仔细看起来,更偏南方一点!

但是呢,千人基因组计划里面对每个样本的信息记录是有限的,并没有跟我基因型非常近的那些人的信息信息,不然我倒是想打个电话过去问问 NA18637是哪里人!

当然,真正的祖缘分析要比这更复杂,比如国内大名鼎鼎的wegene的基因检测产品的祖源分析报告如下:

上面的分析,跟我用PCA分析千人基因组计划应该原理上是差不多的,但是下面的分析我还没弄懂,看起来是专门针对性染色体的起源追踪。但是我搜索了一些资料,如果有空的话,我还会在后面分享的。

PS;我毕竟是一个人在做分析,比不上公司一个团队,而且我是业余时间玩一下自己的基因而已,比不上人家五天八小时的辛勤搜索总结和学习。尤其是本次的祖源分析系列和后面的GWAS解读系列,我相信公司在这一块会做的更好,毕竟,这个可是他们的饭碗!

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

【直播】我的基因组56:探索遗传起源

所以我已经预定了wegene的基因检测试剂盒,因为他们的检测原始数据可以拿到,我会专门抽出4讲来说明芯片做的基因检测和全基因组二代测序做的基因检测结果的一致性问题。敬请期待~~~~~~~~~

人类的Y染色体拥有约0.58亿个碱基对(DNA基本结构),约占人类男性体细胞中DNA的2%[35]。人类Y染色体上有86个基因,这些基因只编码了23种不同的蛋白质。只有拥有Y染色体才能可能继承的性状被称为雄性性状。

人类的Y染色体除了在端粒上的拟常染色体区的少部分片段(只占有染色体长度约5%)能与相应的X染色体发生重组,其外都不能发生重组。这些片区是由原本X染色体与Y染色体同源的片段遗留下来的。Y染色体中不能发生重组的其他部分被称为“NRY区”(non-recombining region,非重组区)。 这个区域中的单核苷酸多态性被用于父系祖先的追溯。https://en.wikipedia.org/wiki/Y_chromosome

参考文献:

  1. Ensembl Human MapView release 43. February 2007 [2007-04-14].

  2. ScienceDaily.com Apr. 3, 2008

文:Jimmy

图文编辑:吃瓜群众

(0)

相关推荐

  • 基因还有浏览器?

    Genome Brower(基因浏览器)是一种把基因的结构按照序列核苷酸的顺序排列的浏览方式,我们在最基本的浏览器上能看到某一段区域内DNA水平下的核苷酸序列以及其基本的结构(内含子/外显子).基于最 ...

  • 【直播】我的基因组(十八):初步分析PCR duplication的情况

    Jimmy博客里面有详细讲读原文查解去除PCR duplication的reads的原理和方法,还比较了samtools和picard这两个软件的区别,请点击阅看(仔细探究samtools的rmdup ...

  • 【直播我的基因组66:大多数性状往往是多个基因控制的

    前面我们说到了那些简单的由单个基因决定的性状,这东西不需要预测,其中的生物学机制已经研究的非常透彻,只要拿到你的基因信息,很容易推断你的性状,比如人的乙醇脱氢酶和乙醛脱氢酶等多种乙醇代谢基因,你本身是 ...

  • 直播我的基因组(第一阶段)完整目录

    最近的全国巡讲不少人问到我两年前的直播基因组系列教程的完整目录,这里先放出直播我的基因组(第一阶段)完整目录.(悄悄告诉你,后台回复直播可以拿到精排版EXCEL表格!)(然后,点击阅读原文也可以拿到可 ...

  • 6-跟着science学习宏基因组-从宏基因组中提取16S/18S序列分析1-vsearch分析

    [toc] 写在前面 从宏基因组中提取核糖体DNA序列,进行扩增子分析.扩增子数据的分析我们已经熟悉的非常熟悉了,只是从宏基因组中得到,这个过程不够熟悉.其次你以为直接提取出来的序列,直接上vseea ...

  • 57苗雅人日常生长记录分析:

    今天出的考研国考卷子:一问一答中产生新的思维意识:汉家天下,攻城,降者不杀,投降免死,从士兵到伍长,千夫长,将军,消灭异性诸侯,和匈奴,兵强伐将,将智伐情,既要懂军事,又要懂政治,地利,古希腊,地理, ...

  • ResistoXplorer——基于Web的耐药基因组数据可视化,统计和探索新分析工具

    对宏基因组测序后的数据进行抗生素耐药性基因组的注释与分析,逐渐成为一条必经之路.过去,人们需要自己下载相关数据库再用比对工具进行比对,然后去冗余,再进行下游分析.这通常需要学习编程并熟练应用,对于一些 ...

  • 教育直播app开发要用到的开源网校源码及技术知识

    经过多年的发展,使用直播APP的用户呈现出爆发式的增长,教育也逐渐与直播挂钩,随着教育直播APP开发者的不断努力,教育直播平台也更加适应广大群体的需求,而且自身也积累了一些的开发技巧.让我们来一起了解 ...

  • 欧洲杯决赛直播预测:英格兰vs意大利比分预测及赛前分析

    北京时间7月12日03:00,2021欧洲杯迎来最后的决斗,英格兰将在伦敦温布利球场迎战意大利,意大利在无缘2018年世界杯之后迅速完成了新老交替,曼奇尼在球队低谷中接过帅印,逐渐让球队重振雄风.目前 ...

  • 柿子基因组测序与其性别决定系统的进化分析

    写在前面 前日,课题组每周小组会时排到我分享论文与研究进展.我大体看了下近期植物小RNA相关研究报道时,发现bioRxiv上,日本Takashi课题组上传了其所开展的柿子基因组测序文章.大体扫了一下, ...