SBC miRNA测序数据分析 - 丁香通
数据分析内容
1) microRNA长度分布统计以验证试验可靠性
应用fastx(fastx_toolkit-0.0.13.2)对测序原始reads进行预处理,去除接头序列以及低质量序列。
图为经过长度统计,各长度上序列的分布情况
2) 比对注释
将测序得到的序列与miRBBase以及其他非编码数据库ncRNA,pirna,Rfam数据库里的序列进行比对,对已知microRNA进行注释:
下图为经过注释的结果,其中分别列出和miRBase数据库,pirna数据库,Rfam数据库以及ncRNA数据库的比对情况。
下图为针对miRBase种Sus scrofa物种进行的比对注释统计:
由之前所得的注释结果,可以作图来更进一步展示其结果:
对整体的注释结果,还可以采取进一步的分析,例如:
(1) 统计碱基偏好性,下图就是测序所得序列分别在21,22,23,24长度上的5’碱基分布情况。
2) 对于测序所得序列,可以统计出其正负链分布情况,以找寻生物学上的特征。
针对某单一microRNA,也可以对其进行更深度的分析。
例如,对其序列的匹配情况进行分别统计:
还可以对其对应的microRNA前体二级结构进行观察。
3) 分类注释
将测序得到的序列与物种所对应的基因组数据库比对,对有注释的reads的来源进行分类统计,鉴定并统计出已知的microRNA以及各种不同种类的RNA分子。
如图,经过与数据库进行分别比对,可以鉴定并统计出包括tRNA,rRNA,snoRNA,snRNA的数量及分布。
4) 差异分析
我们采取用DEGseq R语言包结合perl脚本将样品按照客户的分组情况,进行表达量的比较分析。
在差异分析中,我们会采用TPM(Transcripts per million,公式为:单一miRNA reads数×106/总reads数)作为标准化数据。
结果展示如下:
5) 饱和度分析
将注释结果按比例划分作图,以观察样品注释的趋势,发现其在生物学上的合理性。
6) 新microRNA预测
对于未注释上的序列,我们将其与该物种全基因组序列进行比对分析,通过折叠模型预测新的microRNA,通过折叠模型分析,若有序列位于茎环结构上,则初步判定该序列为一个候选的新microRNA。
对于预测出的新microRNA,我们会统计并列出其所位于的染色体,起始位置,终止位置,正负链,以及数目,长度,GC含量,最小自由能等数值。
对于新microRNA,我们还会计算并绘制出其前体的二级结构,以及其与成熟microRNA之间的位置关系。
7) mircoRNA作用靶基因预测:
采用miranda软件,对microRNA序列以及对应物种的基因组cDNA序列进行可能的靶位点预测
Miranda软件比对结果示意图如下: