超快速!清除测序数据中的rRNAs — RiboDetector
导言
RiboDetector 是基友老邓的作品,主要特点是超快速,超准确去除测序数据中的rRNA。目前该软件应是审稿修回阶段。正好,一个师妹的课题要做微生物数据分析,便让其学习一下,流程部署起来,方便后续项目开展。整体上,这个推文是直接cp师妹的CSDN博客。尽管其中还有不少错漏,但对于一个接触数据分析不到几天的人来说,进展还可以。放上来,欢迎大伙一起讨论学习。同时,推荐大伙了解下 RiboDetector ,马上就是一个大作发表。-- CJ
前言
RiboDetector是一款用于从宏基因组、宏转录组和ncRNA测序数据中准确而快速地检测和去除rRNA序列的软件。它是基于LSTMs开发的,并针对GPU和CPU的使用进行了优化,与当前最先进的软件相比,在CPU上实现了10倍的运行速度,在GPU上实现了50倍的运行速度。此外,它非常准确,错配率降低了了约10倍.最后,它对所有GO富集功能组都具有低水平偏向性。
这个软件是我做的第一个生信操作,刚开始感觉无从下手,只有真正上手才会比较容易,当师兄说我已经运行成功了时,开心不言而喻。非常感谢师兄的指导!也很谢谢课题组其他成员不厌其烦的回答我的低级问题。希望自己能慢慢学,坚持下去!
以下是我的安装使用流程:
1.运行前的准备(安装anaconda和python3.8)
下载anaconda ,通过清华大学镜像网站
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.11-Linux-x86_64.sh
解压,安装anaconda
sh Anaconda3-2020.11-Linux-x86_64.sh
一路回车,yes,默认安装,将anaconda安装到/home/qi_zheng/rrRNA/anaconda
进行环境变量修改
vim ~/.bashrc
发现已经自动进行了环境变量修改,所以直接执行bashrc
source ~/.bashrc
查看conda自带的python版本
python
因为符合需要的3.8版本,所以不需要再安装新的 python3
2.下载RiboDetector文件
使用git命令下载RiboDetector文件
git clone https://github.com/hzi-bifo/RiboDetector.git
下载完成后,根据readme说明进行安装
conda create -n ribodetector python=3.8
出现以下错误,百度后发现是镜像下载问题
根据百度的结果,进行修改
vim ~/.condarc
#删除-default,并且将https改成http
继续安装
conda create -n ribodetector python=3.8
安装成功
3.根据说明书运行RiboDetector
激活
conda activate ribodetector
根据说明书安装一些包
pip install tqdm numpy pandas biopython
#如果是在CPU中运行,需要多安装一个包
pip install onnxruntime
安装pytorch时,需要去pytorch官网(https://pytorch.org/get-started/locally/),选择相对应的pytorch版本
pip install torch==1.8.0+cpu torchvision==0.9.0+cpu torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
安装成功后,传输Raw.N3_2_1.fq.gz(待检测的序列)文件,并解压
gzip -d Raw.N3_2_1.fq.gz
根据说明书运行detect_cpu.py
cd /home/qi_zheng/rrRNA/RiboDetector
python3 detect_cpu.py -l 150 -i /home/qi_zheng/rrRNA/Raw.N3_2_1.fq -o /home/qi_zheng/rrRNA/result
detect_cpu.py 参数详解
使用方法: detect_cpu.py [-h] [-c CONFIG] -l LEN -i [INPUT [INPUT ...]] -o [OUTPUT [OUTPUT ...]] [-r [RRNA [RRNA ...]]] [-e {rrna,norrna,both,none}] [-t THREADS] [--chunk_size CHUNK_SIZE] [-v]
核糖体rRNA检测器
选项与参数:
-h, --help :显示帮助信息并退出
-c CONFIG, --config :配置
-l LEN, --len LEN :测序读长,不能少于50
-i [INPUT [INPUT ...]], --input [INPUT [INPUT ...]]
后面接输入序列文件(fasta或者fastq)的路径,如果是两个文件,第二个文件被认为第二端
-o [OUTPUT [OUTPUT ...]], --output [OUTPUT [OUTPUT ...]]
删除rRNAs后输出序列文件的路径(文件数量与输入相同)(注:gz文件要慢2倍)
-r [RRNA [RRNA ...]], --rrna [RRNA [RRNA ...]]
检测到的rRNA配置文件的输出路径
-e {rrna,norrna,both,none}, --ensure {rrna,norrna,both,none}
只输出可信度高的某些序列
norrna:输出可信度高的非rRNAs,尽可能多地去除rRNAs;
rrna: 反之,输出具有高可信度的rRNAs
both: 输出具有高可信度的非rRNAs和rRNAs;
none: 根据读对的平均概率给出标签(只适用于双端测序paired end reads,当他们的预测不一致时会舍弃read pair)
-t THREADS, --threads THREADS : 读对要使用的线程数。(默认参数:10)
--chunk_size CHUNK_SIZE
Chunk_size * threads读取每个线程的进程。(默认:256) 当chunk_size=1024, threads=10时,每个进程将加载1024次读取,总共消耗10G内存。
-v, --version :显示程序的版本号并退出
————————————————
使用方法: detect_cpu.py [-h] [-c CONFIG] -l LEN -i [INPUT [INPUT ...]] -o [OUTPUT [OUTPUT ...]] [-r [RRNA [RRNA ...]]] [-e {rrna,norrna,both,none}] [-t THREADS] [--chunk_size CHUNK_SIZE] [-v]
核糖体rRNA检测器
选项与参数:
-h, --help :显示帮助信息并退出
-c CONFIG, --config :配置
-l LEN, --len LEN :测序读长,不能少于50
-i [INPUT [INPUT ...]], --input [INPUT [INPUT ...]]
后面接输入序列文件(fasta或者fastq)的路径,如果是两个文件,第二个文件被认为第二端
-o [OUTPUT [OUTPUT ...]], --output [OUTPUT [OUTPUT ...]]
删除rRNAs后输出序列文件的路径(文件数量与输入相同)(注:gz文件要慢2倍)
-r [RRNA [RRNA ...]], --rrna [RRNA [RRNA ...]]
检测到的rRNA配置文件的输出路径
-e {rrna,norrna,both,none}, --ensure {rrna,norrna,both,none}
只输出可信度高的某些序列
norrna:输出可信度高的非rRNAs,尽可能多地去除rRNAs;
rrna: 反之,输出具有高可信度的rRNAs
both: 输出具有高可信度的非rRNAs和rRNAs;
none: 根据读对的平均概率给出标签(只适用于双端测序paired end reads,当他们的预测不一致时会舍弃read pair)
-t THREADS, --threads THREADS : 读对要使用的线程数。(默认参数:10)
--chunk_size CHUNK_SIZE
Chunk_size * threads读取每个线程的进程。(默认:256) 当chunk_size=1024, threads=10时,每个进程将加载1024次读取,总共消耗10G内存。
-v, --version :显示程序的版本号并退出
————————————————
版权声明:本文为CSDN博主「Hebe米」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/mili336699/article/details/116210178
赞 (0)