技术贴 | 宏转录组专题 | 盘点宏转录组分析方法
本文由阿童木根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
Leimena-2013
文章:
核心算法/工具:
1) SortMeRNA:去除16S,23S,18S,28S rRNAs序列的常用工具。
2) BLASTN:用于核酸序列比对的一个模块,速度慢于 MegaBlast,但是功能更强。
3) MegaBLAST:经典比对软件BlAST的子模块,速度快,能找出相似度比较高的序列,一般用于同一物种内部或者分歧不太远的物种之间。
4) KAAS:KEGG自动注释服务器。链接:http://www.genome.jp/tools/kaas/
数据库:
1) SILVA:细菌、古菌、真菌等微生物分类数据库,包含maker序列和注释信息。
2) COG:Cluster of Orthologous Groups of Proteins,蛋白相邻类的聚簇数据库。
3) MetaHIT:人类肠道宏基因组数据库 [Nature 2010]。
4) 人类小肠宏基因组数据库 [ISME J 2012]。
5) KEGG:京都基因与基因组百科全书,包含生物代谢、通路等功能信息的数据库。
核心步骤:
1) 用SortMeRNA和默认的rRNA数据库去除16S,23S,18S,28S的rRNAs序列。
2) 用BLASTN和SILVA、NCBI数据库去除剩下序列中的细菌、古菌、真核生物的tRNA/rRNA序列。
3) 去除Illumina Phix control序列和adaptor序列。
4) 用MegaBLAST 和BLASTN进行mRNA与NCBI数据库(含3979个细菌和古细菌的全基因组或基因组草图)的比对确定mRNA序列的物种发生起源(科/属水平)。
5) 将至少50%比对到基因ORF的序列定义为“基因/编码序列”,少于50%的序列定义为“非编码/基因间序列”,然后用BLAST 、KEGG自动注释服务器KAAS、COG数据库、KEGG数据库进行编码序列的功能注释和代谢分析。
6) 调整BLASTN的参数,用NCBI蛋白数据库、MetaHIT蛋白序列数据库、人类小肠宏基因组数据库、KEGG、COG进一步挖掘4)中“Unassigned mRNA序列”的功能。
HUMAnN2
Species-level functional profiling of metagenomes and metatranscriptomes. Nat Methods 2018
HUMAnN2介绍:http://huttenhower.sph.harvard.edu/humann2
HUMAnN2使:https://bitbucket.org/biobakery/hmp2_workflows/src/master/
核心算法/工具:
1) Bowtie2:是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组)。
2) MetaPhlAn2:可以基于宏基因组数据,获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种,也可以追踪和研究。
3) MinPath:是一种使用蛋白质家族预测进行生物通路重建的节俭方法,为查询数据集实现更保守、更可靠的生物通路估计。
4) DIAMOND:一种新的高通量程序,可将DNA序列或蛋白质序列与NR等蛋白质参考数据库进行比对,速度可达BLAST的2万倍,具有很高的灵敏度。
数据库:
1) UniRef:UniProt Reference Clusters(UniRef),是蛋白参考数据库。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能收录更多数据,同时也保证没有冗余数据。
2) MetaCyc:是一个代谢通路数据库,包含来自3009个不同生物体的2722条通路。
3) ChocoPhlAn pangenome:泛基因组数据库,含细菌、古菌、真核生物、病毒的注释信息。
核心步骤:
1) 用KneadData、Bowtie2、Trimmomatic和hg38 mRNA数据进行序列过滤,去除低质量碱基、序列和宿主序列。
2) 用MetaPhlAn2和ChocoPhlAn泛基因组数据库进行物种分类鉴定。
3) 用MinPath、DIAMOND和UniRef、MetaCyc数据库进行基因家族、功能和通路的注释。
MetaTrans
文章:
MetaTrans链接:http://www.metatrans.org/
核心算法/工具:
1) Kraken:能利用基于k-mer的精确比对方法和庞大的微生物基因组参考数据库(>8500种微生物)超高速、高正确性和精确性地将微生物注释到属及更低的水平。
2) SortMeRNA:去除16S,23S,18S,28S rRNAs序列的常用工具。
3) UCLUST:能以USEARCH作为序列比对引擎进行序列聚类。
4) SOAP2:是SOAP(Short Oligonuclotide Analysis package)的一个主要成员,能进行高速短核酸序列比对。
5) FragGeneScan:是在短序列中找到基因的一种基因注释程序,也可用于在完整或非完整基因组中的预测原核生物的基因。
数据库:
1) SILVA-115:SIVLA微生物分类注释数据库(2013年版)。
2) Greengenes-13.5:Greengenes微生物分类注释数据库(2013年版)。
3) Rfam-11:用来鉴定non-coding RNAs的数据库。
4) tRNA-all:用来鉴定tRNA数据库。
6) MetaHIT:包含1250人的,由EggNOG数据库注释好的的宏基因组数据库。
7) M5nr:包含MG-RAST服务器提供的、1590万个独特的蛋白质和580万个来自IMG、Genbank、InterPro、KEGG、PATRIC、Phantome)、RefSeq、SEED、UniProt的功能注释。。
核心步骤:
SAMSA
文章:
SAMSA GitHub链接:https://github.com/transcript/SAMSA
核心算法/工具
1) Trimmomatic:去除测序数据中接头、引物、低质量碱基和序列的质控工具。
2) FLASH:一种快速、准确的能通过序列重叠区将双端测序得到的上、下游序列合并到一起以增加读长的软件。
3) MG-RAST:Metagenomic Rapid Annotations using Subsystems Technology物种分类和功能分析服务器 链接:http://www.mg-rast.org/
数据库:
核心步骤:
你可能还喜欢
1 初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤
4 技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据