生工技术 | 如何优雅的分析测序结果
做过分子克隆的小伙伴都有过这个经历,那就是将公司反馈的测序结果,与自己的理论序列进行比对分析,分析的目的有很多,比如看目的片段中是否含有SNP位点,检查自己的扩增产物是否有突变等等。
记得小编最早之前是将测序结果分为很多段,一段段进行复制,然后在目的序列中进行查找,找到了就证明这段序列正确,找不到就说明里面有不匹配的碱基,现在回想起来,小编当时真是很傻很天真。
当然这些年过去,小编也成长了不少,今天跟大家分享一下,我是如何优雅地分析测序结果的。不过在此之前,需要简单了解一下测序反馈的结果文件类型:
很多人将其错看成abi文件,实际是ab1文件哦,这个是现在最常使用的ABI 3730XL测序仪的输出文件,也就是我们常说的峰形图文件,从这个文件中,我们能够看出测序结果中每一个核苷酸的峰形以及整体的测序质量如何。
打开ab1文件的方式有很多,这里小编钟爱snapgene软件,不仅能够通过左右、上下滑块调节图形,并且能够实现反向互补的神奇操作。
序列文件,这个可以用记事本直接打开,看到测序结果的序列,小编对其的操作是直接删除,没错,眼睛都不带眨的。因为ab1文件已经包含序列了,seq文件只不过是将其中的序列再导出一遍,并且连测序峰形不好的部分一并导出了,可以说没什么实际意义。
这样的序列你敢用?
由于一代测序的特点,其一次测序能够产生约600~900bp的有效读长。某些较长的片段能够通过正反向测序或者设计引物测序将全长覆盖,这样,测序公司可以将多次测序结果进行拼接,从而直接给客户提供拼接好的结果序列。
如果拼接结果与理论序列完全一致,则皆大欢喜;如果结果中有碱基与理论序列不一致,那么就需要根据ab1文件详细分析了。
下面进入干货:
小编以自己的正反向测序结果为例,为大家讲解:
该目的片段是一段CDS,比较长,因此我选择构建到T载体上,利用T载体上的M13引物进行测序,已达到完全覆盖CDS的效果。
1.使用Snapgene创建理论序列DNA文件
将理论序列粘贴到Snapgene中,保存为DNA文件:
2.删除测序结果中的seq文件,免得其干扰我的思路。在理论序列文件中,点击Tools →align multiple sequences,选择正、反向测序的ab1文件。这样就得到了理论序列与正反向测序峰图的比对图:
从比对结果图中可以看到,正向测序结果(蓝色右箭头)有4个空白,即4个位点与理论序列不符;而反向测序结果(蓝色左箭头)有1个不符。接下来,详细分析这几个不匹配的位点。
3. 点击Sequence标签,切换到序列页面,找到不匹配的位点,这里推荐将ab1文件的峰图打开:
可以看到,第一个不匹配的位点,正反向测序均实现了覆盖:
正向测序的峰高非常矮,并且出现了套峰,从而产生误读;相比之下,反向测序的峰形十分标准,因此,综合判断,该处反向测序的结果更为可信,即该处没有发生突变。
4. 点击图中按钮,可以迅速查找到下一个不匹配碱基,可以看到,正反向测序的峰形都很标准,也就是说这里的确是实际序列与理论序列不一致,点击“预测编码蛋白”按钮,还可以看到该突变位点在CDS编码蛋白氨基酸序列中的位置,即GAT变为GGT,编码氨基酸由天冬氨酸变成了甘氨酸。
可以在这里添加Feature,进行记录:
重复上述步骤,很快就可以将测序结果分析完毕,怎么样,是不是轻松加愉快?
只不过,小编的点突变该怎么办呢?