qualimap+multiqc完美解决多组学比对结果的质控

这个完全是项目实战经验分享咯,有大样本量NGS多组学数据处理经验的朋友应该能很容易理解,动辄几个T的数据,上百个样本很难一个个的检查是否出现问题,需要一个简单方便快捷质控方案。而我认为qualimap+multiqc完美解决多组学比对结果的质控,当然也欢迎大家在我们生信技能树平台推荐自己的实战经验!

qualimap的英文文档本来就很清楚,但是需要一些时间来理解: http://qualimap.bioinfo.cipf.es/doc_html/analysis.html

qualimap的测试数据也给的很全面: http://qualimap.bioinfo.cipf.es/doc_html/samples.html#counts-example-output

对外显子测序用qualimap

需要自己制作 mm10.exon.chr.bed 文件,我在生信菜鸟团博客多次讲解过它的制作方式,如下:

wget ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS//archive/21/CCDS.20161208.txt

cat CCDS.20161208.txt   |perl -alne '{/\[(.*?)\]/;next unless $1;$gene=$F[2];$exons=$1;$exons=~s/\s//g;$exons=~s/-/\t/g;print "$F[0]\t$_\t$gene" foreach split/,/,$exons;}'|sort -u |bedtools sort -i >mm10.exon

awk '{print $0"\t0\t+"}' mm10.exon >mm10.exon.bed

然后就可以运行 qualimap,下面的shell脚本我也在生信菜鸟团博客多次讲解过,相信你们肯定能看懂了。

## $1 for the config file:  bam_path.txt
## $2 and $3 for submit jobs.
exon_bed='/home/jianmingzeng/annotation/CCDS/mouse/mm10.exon.chr.bed'
qualimap='/home/jianmingzeng/biosoft/Qualimap/qualimap_v2.2.1/qualimap'
cat $1 |while read id
do
echo $id
   if((i%$2==$3))
   then
   $qualimap bamqc --java-mem-size=20G -gff $exon_bed -bam $id
   fi
   i=$((i+1))  
done

可以看外显子的测序情况。

对转录组数据进行QC

这里其实应该是首推RSeQC这个软件,可惜那是个python的,而且运行超慢,还具耗费内存。所以不得已转为

示例报告: http://kokonech.github.io/qualimap/kidney_rnaseqqc/qualimapReport.html

## $1 for the config file:  bam_path.txt
## $2 and $3 for submit jobs.
gtf='/home/jianmingzeng/reference/gtf/gencode/gencode.v25.annotation.gtf'
qualimap='/home/jianmingzeng/biosoft/Qualimap/qualimap_v2.2.1/qualimap'
cat $1 |while read id
do
file=$(basename $id )
sample=${file%%.*}
echo $sample
   if((i%$2==$3))
   then
   $qualimap rnaseq --java-mem-size=20G -gtf $gtf -bam $id -pe  -oc $sample
   fi
   i=$((i+1))  
done

count qc

属于转录组数据质控的一部分,比如:6 samples in 2 conditions 的报告,这个时候的input数据是表达矩阵了:

  • Global report

  • Comparison of conditions

  • Sample 01 (GlcN negative)

  • Sample 02 (GlcN negative)

  • Sample 03 (GlcN negative)

  • Sample 04 (GlcN positive)

  • Sample 05 (GlcN positive)

  • Sample 06 (GlcN positive)

综合比较多个bam文件

示例报告:

  • 无分组信息:https://rawgit.com/kokonech/kokonech.github.io/master/qualimap/gh2ax_multibamqc/multisampleBamQcReport.html

  • 有分组信息:https://rawgit.com/kokonech/kokonech.github.io/master/qualimap/gh2ax_groups_multibamqc/multisampleBamQcReport.html

qualimap会给每一个样本单独进行质控,得到质控的html报告,不过那个报告本身非常丑陋,而且单独的html报告依然是不方便浏览,需要归纳汇总,这个时候multiqc就能大展身手。multiqc已经发展成为了一个质控平台,大家可以在其平台上面开发各种质控软件的可视化归纳汇总插件,而qualimap就已经被开发了。

对WES数据汇总,下面我截图其中一个例子:

对RNA-seq数据汇总,我截图两个例子:

因为我这里展示的公共数据的质控结果,所以非常优秀,但实际在处理自己的真实数据,总是会发现各种各样的问题。

如果你也实践一次,你就明白了,如果你需求上面截图的原始html报告,可以发邮件找我申请,注明原因即可,我的邮箱是  jmzeng1314@163.com

(0)

相关推荐