还是用RSeQC对比对后的转录组数据做一下质控

2024-08-04 17:10:12

那个时候写教程，以软件安装，软件input和output为主，因为觉得新手最容易纠结的就是这些了，但是现在回过头来看，软件安装已经成了小菜一碟，对各种bam/sam/vcf/gtf也耳熟能详，所谓的input/output也不是问题了。

所以，再看看我最近是如何记录该软件的吧：

RSeQC包是一个python软件，最新版是 v2.6.4 ，依赖于： gcc; python2.7; numpy; R

它提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据，比如一些基本模块，检查序列质量, 核酸组分偏性, PCR偏性, GC含量偏性,还有RNA-seq特异性模块: 评估测序饱和度，映射读数分布，覆盖均匀性，链特异性，转录水平RNA完整性等

详细列表如下：

bam2fq.py
bam2wig.py
bam_stat.py
clipping_profile.py
deletion_profile.py
divide_bam.py
FPKM_count.py
geneBody_coverage.py
geneBody_coverage2.py
infer_experiment.py
inner_distance.py
insertion_profile.py
junction_annotation.py
junction_saturation.py
mismatchprofile.pynormalizebigwig.pyoverlay_bigwig.py
read_distribution.py
read_duplication.py
readGC.pyreadhexamer.py
read_NVC.py
read_quality.py
RNAfragmentsize.py
RPKMcount.pyRPKMsaturation.py
spilt_bam.py
splitpairedbam.py
tin.py

数据库文件

RSeQC接受4种文件格式:

BED 格式: Tab 分割, 12列的表示基因模型的纯文本文件
SAM 或BAM 格式: 用来存储reads 比对结果信息.
染色体大小文件: 只有两列的纯文本文
Fasta文件的参考基因组

数据库文件根据参考基因组版本自行选择下载，我这里要下载的是hg19系列，下载地址如下：

https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_GENCODE_v19_basic.Cancer_genes.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_UCSC_knownGene.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_RefSeq.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_rRNA.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_GENCODE_GENE_V19_comprehensive.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19.HouseKeepingGenes.bed
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_AceView.bed.gz
https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_Ensembl.bed.gz
ls *.gz|while read id ; do gunzip $id;done

希望读者能够明白，看教程一定要看规律，我为什么列出如此多的url，其实就是想你领悟它们的共性： https://sourceforge.net/projects/rseqc/files/ 你在浏览器打开就明白了。

### 软件安装

# 如果python版本没有问题，那么直接用pip即可安装
pip install RSeQC --user
# 如果有conda，那么更方便
conda install -c bioconda rseqc
## 依赖于python2.7
## 所以conda可能需要先创建python2.7的环境,再安装
conda info --envs
conda create -n py2.7 python=2.7 rseqc
source activate py2.7

虽然该软件的使用命令非常多，但很多功能并不是用来诊断转录组测序的，所以不在我们的考虑范围内。下面是我们经常会用得到的：

# nohup bash run.sh 1>run.log 2>&1 &
#source activate py2.7
mkdir -p db
cd db
if [ ! -f hg19_RefSeq.bed ]; then
wget https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg19_RefSeq.bed.gz
wget https://sourceforge.net/projects/rseqc/files/BED/Human_Homo_sapiens/hg38_RefSeq.bed.gz
wget https://sourceforge.net/projects/rseqc/files/BED/Mouse_Mus_musculus/mm10_RefSeq.bed.gz
ls *.gz|while read id ; do gunzip $id;done
fi
cd ../
bed='db/mm10_RefSeq.bed'
nohup geneBody_coverage.py -r $bed -i bam_path.txt -o coverage 1>coverage.log 2>&1 &
cat bam_path.txt |while read id ; do
echo $id
file=$(basename $id )
sample=${file%%.*}
junction_annotation.py -i $id -r $bed -o ${sample}_junction
bam_stat.py -i $id >${sample}_bam_stat.log
RPKM_saturation.py -r $bed -d '1++,1--,2+-,2-+' -i $id -o ${sample}_RPKM_saturation
## below just like fastqc
nohup read_quality.py -i $id -o ${sample}_read_quality &
nohup read_NVC.py -i $id -o ${sample}_read_NVC &
nohup read_GC.py -i $id -o ${sample}_read_GC &
nohup read_duplication.py -i $id -o ${sample}_read_duplication &
read_distribution.py -i $id -r $bed >${sample}_distribution.log
done

用 bam_stat.py来统计总比对记录, PCR重复数, Non Primary Hits表示多匹配位点, 不匹配的reads数, 比对到+链的reads, 比对到-链的reads, 有剪切位点的reads等.

#==================================================
#All numbers are READ count
#==================================================
Total records: 45722327
QC failed: 0
Optical/PCR duplicate: 0
Non primary hits 2687735
Unmapped reads: 2338796
mapq < mapq_cut (non-unique): 2045264
mapq >= mapq_cut (unique): 38650532
Read-1: 19631272
Read-2: 19019260
Reads map to '+': 19320271
Reads map to '-': 19330261
Non-splice reads: 20690614
Splice reads: 17959918
Reads mapped in proper pairs: 36737552
Proper-paired reads map to different chrom:0

可以看到比对效果非常赞，这个转录组很成功！

另外一个比较赞的小程序就是： read_duplication.py 结果一般如下：

Total Reads 40695796
Total Tags 64718115
Total Assigned Tags 61411678
=====================================================================
Group Total_bases Tag_count Tags/Kb
CDS_Exons 34406515 45257520 1315.38
5'UTR_Exons 6859302 2274659 331.62
3'UTR_Exons 25952114 9778098 376.77
Introns 943281009 3254031 3.45
TSS_up_1kb 19391072 65573 3.38
TSS_up_5kb 88202906 155561 1.76
TSS_up_10kb 160360035 222457 1.39
TES_down_1kb 19659116 216878 11.03
TES_down_5kb 84349049 524626 6.22
TES_down_10kb 149723035 624913 4.17
=====================================================================

可以用一个饼图来表示，在生信技能树论坛里面还有人专门提问过。

用 geneBody_coverage.py来计算RNA-seq reads在基因上的覆盖度，这里推荐对所有的样本的 bam文件一起运行该程序进行诊断，如图：

junction_annotation.py:

输入一个 BAM或 SAM文件和一个 bed12格式的参考基因文件,这个模块将根据参考基因模型计算剪切融合(splice junctions)事件.

splice read: 一个RNA read,能够被剪切一次或多次
splice junction:多个跨越同一个内含子的剪切事件能够合并为一个 splicing junction.

一般来说，novel的junction区域总是有的，因为我们用的是ucsc的refseq参考注释集，本身就是不够完整的。

RPKM_saturation.py

任何样本统计（ RPKM）的精度受样本大小（ 测序深度）的影响，重抽样或切片是使用部分数据来评估样本统计量的精度的方法。这个模块从总的 RNA reads中重抽样并计算每次的 RPKM值，通过这样我们就能检测当前测序深度是不是够的(如果测序深度不够RPKM的值将不稳定,如果测序深度足够则RPKM值将稳定)。*默认情况下,这个模块将计算20个 RPKM值(分别是对个转录本使用5%,10%,…,95%的总 reads)，所以非常消耗内存哦。

在结果图中,Y轴表示 “Percent Relative Error” 或 “Percent Error”

说明:Q1,Q2,Q3,Q4是按照转录本表达量4分位分开的.Q1表示的是表达量低于25%的转录本,以此类推.可以看出:随着样本量升高, RPKM与实际值的偏差也在降低.而且转录本表达量越高这种趋势越明显(Q4最明显).

写在最后：

NGS组学分析流程的每一个步骤都应该是有充分的质量控制，主要是考虑到各个项目的实际情况可能会比较特殊，如果都走一样的自动化，流水线的流程，肯定是会有问题的。

明天给大家看看，问题主要是什么，敬请期待哈。

RNA seq汇总篇，一文掌握RNA seq

RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...
【进阶开发】如何编译MaixPy工程

开源 MaixPy 项目开发指南本文是为了帮助一些想要成为开发者的用户而写的开源项目の开发文档. 1. 获取 maixpy 开源项目请准备 linux 系统环境(在 Windows 上使用 WSL ...
【科研】转录组测序数据分析

引言前面两期主要为各位简单介绍了转录组测序以及转录组测序的方法,相信各位对转录组测序有了一定的了解.那么测序后进行数据分析,具体包含哪些分析内容呢?本文就详细为各位介绍一下. 分析内容 mRNA是具 ...
常见python模块大全

表白:黑白圣堂血天使,天剑鬼刀阿修罗.讲解对象:/陌生的python模块怎么学习,参考资料很少作者:融水公子 rsgz生活中总理会遇到很多问题,总想用代码解决他们.但是,实现解决问题的程序总会使用很多 ...
Omics精进09|mRNA生信分析常规流程

本文介绍「mRNA生信分析流程」 ❞ mRNA生信分析速览 mRNA生信分析主要包含以下各部分. mRNA分析详细步骤数据质控及过滤 FastQC数据质控关注测序数据的碱基质量.GC比等,见上图红 ...
microPython源码分析.2

这个目录里面是最小的实现这个目录里面是一些驱动底层驱动类Unix上面用于编译py的编译器 Python的核心实现 STM32上面的mpy实现 Unix上面的mpy实现 upip,DFU这些工具的 ...
福特翼虎和标致4008，谁更值得购买？对比分析后，你就会有答案

各位点开这篇文章的朋友们,想必都是很高的颜值吧,我们真的是很有缘哦,小编每天都会给大家带来不一样的时尚资讯,如果对小编的文章或者其他的什么,有什么一些意见的话欢迎在下方积极评论哦,小编每条都会认真看的 ...
关于「保费豁免」，这是我们对比热销产品后的心得

最近很多朋友会跟深蓝君咨询定期寿险的事情,说实话我还是挺开心的,随着大家对保险的认识和接受程度越来越高,也越来越认可定期寿险这种最回归保险保障本质的产品.其实除了定期寿险,还有一种保险也非常的体贴且性 ...
将明代乡试和现代高考录取数据做了一番对比后，我发现了一些秘密

前言一年一度的高考正在如火如荼地进行当中,几天过后,各省的填报志愿工作.各大高校的录取工作,都会有条不紊地进行着.显然的,对于每一位中国人来说,高考都是非常重要的事情. 高考,是很多人一生中的第一个 ...
如何对比Excel的两列每行数据，保障对比后小的数据变成红色

职领office达人学院第779个原创技巧职领office达人学院社群小伙伴的问题又来了.这次的问题还是蛮有趣的,数据是Excel里的重要内容,当然也可以说是Excel的核心命脉,而数据大小的对比在 ...
阿里硕士生月薪3万，却被亲戚嘲笑：不如去考公务员，收入对比曝光后引热议

近年来,有越来越多年轻人在毕业之后都渴望能够进入一线城市的大公司,尤其是一些互联网公司,那么这些年轻人就可以通过自身的学历和能力获得较好的发展,但是在大城市里虽然能够获得高薪岗位,可是在回家过年的时候 ...
他公然“抄袭”大师名作，放出对比图后却引来一阵掌声？看完后拍手叫绝！

在文艺圈,关于"抄袭他人作品"这个话题无论再过多少年,它都是一个热门话题涉及到作品抄袭的事件,也总是层出不穷并且多数时候都是被"热心"群众揭发但有一位画 ...
一只家猫准备偷袭一只猛禽，当靠近对比体型后，猫立即怂了逃走了

一只家猫准备偷袭一只猛禽,当靠近对比体型后,猫立即怂了逃走了
华兰生物与天坛生物的对比分析后，我排除天坛生物

愿景:与您一起慢慢变富战略:买入优秀的企业,做时间的朋友目标:每年深度理解十个优秀企业,抓住一两个大机会本文是4月13日晚上,在"终身学习者课堂"群里闲聊后,志愿者聪哥的 ...
shimano：XT，SLX，DEORE对比完后一句话：贵的好，你觉得呢？

今天做对比的这三款刹车分别是shimano的次顶级刹车XT型号为m785,以及林道专用的SLX型号为 m675,以及训练级别的DEORE型号 m615,这三款刹车在价格上,xt最贵,slx其次,deo ...

还是用RSeQC对比对后的转录组数据做一下质控

详细列表如下：

数据库文件

相关推荐