【直播】我的基因组52:X和Y染色体的同源区域探索

很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了。

【直播】我的基因组48:我可能测了一个假的全基因组

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况

通过自己的测序数据的详细分析,我才知道PAR(pseudoautosomal region)。这样的X,Y染色体大量同源,说到底是测序片段压根无法准确定位,所以说所谓的X,Y染色体是单倍体的常识,在这里完全错误的。这些区域目前有29个基因,那么对这29个基因来说,其实就跟定位在常染色体上一样,有两个拷贝的!

这些区域在hg38的参考基因组坐标如下;

The locations of the PARs within GRCh38 are:

PAR1: chrY:10,000-2,781,479 and chrX:10,000-2,781,479 [7]

PAR2: chrY:56,887,902-57,217,415 and chrX:155,701,382-156,030,895 [7]

PAR3: chrY:3,571,959-5,881,959 and chrX:89,145,000-92,745,001 [3]

那么我们就可以通过自己的数据处理能力来探索一下X和Y染色体的同源区有多少,是哪里的问题!

首先下载X,Y染色体的fasta序列,在UCSC上面下载即可。

然后把X染色体构建bwa的索引。

接着模拟一个Y染色体的测序数据,模拟的程序很简单,模拟Y染色体的测序片段(PE100,insert400)。

最后把模拟测序数据比对到X染色体的参考,统计一下比对结果即可!

我自己看sam文件也发现真的同源性好高呀,总共就模拟了380万reads,就有120万是百分百比对上了。

所以对女性个体来说,测序判断比对到Y染色体是再正常不过的了。如果要判断性别,必须要找那些X,Y差异性区段!对男性来说,更是如此!

本次测试涉及到的文件如下:

shell脚本如下:

  1. cd tmp/chrX_Y/hg19/

  2. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz;

  3. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz;

  4. gunzip chrX.fa.gz

  5. gunzip chrY.fa.gz

  6. ~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa

  7. ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam

  8. samtools view -bS read.sam >read.bam

  9. samtools flagstat read.bam

  10. samtools sort -@ 5 -o read.sorted.bam read.bam

  11. samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam

  12. samtools index read.filter.rmdup.bam

  13. samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz

对Y染色体随机抽取模拟测序片段的程序如下(这个程序我不想给文字版的,希望大家可以自己手动敲一遍,在我们的生信技能树论坛上面提交自己的感悟:http://www.biotrainee.com/thread-696-1-1.html):

这个测序待改进的地方太多了,比如可以过滤掉N含量过多的片段(我只是把全部是N的地方去除了),可以设置插入片段为参数,而且打断的片段不应该是稳定的600bp,而且可以改成PE150的测序,或者更长,模拟一下看看是不是3代测序的超长片段,就能解决这个问题。

建bwa索引的log日志如下:

仔细打开比对结果sam文件可以继续探索,有不少比对结果含义XA:Z,说明即使是这100个碱基在X染色体也有多个定位!

【直播】我的基因组(十三):了解sam格式比对结果

甚至对这个sam文件可以做variation的calling,然后放到IGV里面去看看!

最后找到的variation也可以统计一下:

96180个 0/1

181020 个1/1

当然,这里我模拟的是4X 的数据,所以找到的variation不会太准确,但是我模拟的精确数据,其实不应该有杂合的variation,但结果还是有一些~

毕竟这种比对也太诡异了,看来我对BWA软件的理解还不够透彻!

请参与本次直播基因的同学继续我的思路探索下去,模拟PE150,甚至miseq的PE250的测序片段看看比对情况如何,或者模拟三代测序仪的。

还可以下载hg38参考基因组的X,Y序列,只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

参考:https://en.wikipedia.org/wiki/Pseudoautosomal_region

文:Jimmy

图文编辑:吃瓜群众

(0)

相关推荐

  • 教程 | 简单粗暴的叶绿体基因组 SNP Calling 流程

    写在前面 最近主要忙一些植物群体基因组数据的项目.前面提过,赶时间,全基因组的 SNP Calling 使用 GATK 流程,还是需要跑上两三天.但这个还是耗时,并不一定能够赶上工期.于是我将目标转移 ...

  • NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 目录 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重 ...

  • 【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

    在上一次直播中,我们说到了一个不符合我们的认知的问题.就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡,这着实让我非常纠结.在朋友圈大量求助中,肿瘤所的朋友非常热心的帮我检查了她手头的几百个外 ...

  • 【直播我的基因组66:大多数性状往往是多个基因控制的

    前面我们说到了那些简单的由单个基因决定的性状,这东西不需要预测,其中的生物学机制已经研究的非常透彻,只要拿到你的基因信息,很容易推断你的性状,比如人的乙醇脱氢酶和乙醛脱氢酶等多种乙醇代谢基因,你本身是 ...

  • 直播我的基因组(第一阶段)完整目录

    最近的全国巡讲不少人问到我两年前的直播基因组系列教程的完整目录,这里先放出直播我的基因组(第一阶段)完整目录.(悄悄告诉你,后台回复直播可以拿到精排版EXCEL表格!)(然后,点击阅读原文也可以拿到可 ...

  • 【和你有约直播回顾】第52期:迈过挣扎的弯路,望向明媚的晴空

    我们只需从容地行进,日益年轻,日益强健, 抵达创造之门时,成熟而又充满活力. 然后,在爱中步入豆蔻年华. 儿女出生时,我们已成为孩童. 那一刻,年长的他们会教我们咿呀学语, 会哼着摇篮曲陪伴我们进入梦 ...

  • 人类源流——人类Y染色体1

    分子人类学产生于二十世纪60年代,它是分子生物学与人类学交叉产生的边缘学科.从60年代开始,一些分子生物学家逐步将分子生物学技术引入人类学研究领域,试图通过研究人类DNA中所蕴藏的遣传信息来揭示整个人 ...

  • 人类源流——人类Y染色体2

    5.现代智人与古人类混血 约20万年前,智人的'亚当'和'夏娃'产生.粒线体DNA与化石证明现代人类大约于20万年前起源于东非.与其他动物相比,人具有高度发达的大脑,具有抽象思维.语言.自我意识以及解 ...

  • 人类源流——人类Y染色体3

    6.Y-C单倍群 Y染色体C-M130单倍群是Y-CF两个分支中的一支,C的地位与F相当.Y-C人群发现于除非洲以外的各个大陆古代人群中,是中亚.西伯利亚.北美和大洋洲一些土著部落的主流单倍群.在早期 ...

  • 人类源流——人类Y染色体5

    13.Y-Q单倍群 Y-Q系是远古时代唯一一个在全球范围内进行过扩张迁徙的单倍群,几乎走到过地球上的每个角落.除美洲的印第安人在500年前欧洲人进入之前因缺少其他人种竞争,并随着欧洲殖民者到来,同时带 ...

  • 人类源流——人类Y染色体6

    14.Y- R单倍群 印欧人种在分子人类学上主要属于Y-R系.分子人类学越来越精细的研究,正在越来越清晰地勾画出人类种族迁徙和文明发展史.虽然Y-R系诞生很早,大约27000年前就已经出现于中亚P集团 ...