随着DNA测序技术的突飞猛进,获取蛋白质的序列数据已经十分容易,相比之下如果想要获得蛋白的结构数据则困难许多。然而,在生物领域摸爬滚打,蛋白的三维结构总是一个绕不开的话题。了解课题相关蛋白的三维结构可以加深对蛋白构效关系的理解,可以解释药物小分子发挥作用的关键机制、也有助于阐明基因突变导致生物体形状改变的根本关系,除此之外,基于靶点的药物开发也依赖于受体靶点的结构。而在文章中加入蛋白的三维结构图,也能让你的文章高大上起来。目前主流的蛋白解析技术是冷冻电镜和X射线晶体衍射,除此之外还有部分结构通过核磁的方法解析。但无论是哪一种方法都耗时耗力且价格不菲。对于已经解析出结构的蛋白,我们可以通过蛋白的名称或者对应的PDB:ID在RCSB检索它的结构。RCSB:https://www.rcsb.org/然而截止目前, RCSB-PDB的数据库中仅存储了17万条蛋白质的结构数据, 而这只占UniProt中所有蛋白质序列数的千分之一左右,也就是说到目前只有约千分之一的人类已知蛋白质序列拥有通过实验测定的三维结构。而当我们想要调研的蛋白三维结构还没有被解析,精确预测预测蛋白的三维结构就变得尤为重要。随着人们对蛋白质的理解加深以及计算机的发展,通过对蛋白质三维结构的建模可以帮我们尽可能精准地获得蛋白结构。通过计算机模拟上蛋白结构研究的空白。目前主流的蛋白质建模方法主要包括同源建模、折叠识别和从头计算三种方式。同源建模主要是以已知的蛋白质三维结构作为模板对未知的蛋白质三维结构进行预测。其理论基础在于蛋白质的一级结构比三级结构要更为保守。由于同源建模是以已解析结构的蛋白为基础,因此,其预测结果通常更受认可。对于拥有同源性高于25%模板的结构,同源建模软件通常都可以还原出较为精确的蛋白结构。折叠识别的基本原理是从蛋白质结构数据库中识别与待测序列具有相似折叠类型的序列,进而实现蛋白序列的空间结构预测。其理论依据在于蛋白的折叠类型有限,不同序列共享有限的折叠类型。从头计算的方法是基于热力学基础的。蛋白质的天然构象对应其能量最低的构象。因此我们通过构造合适的能量函数及优化方法,便可以实现从蛋白质序列直接预测其三维结构的目的。基于这些理论,现在有许多对应开发的软件。对于本地端的软件而言,modeller是较好的选择。但是本地端的蛋白结构预测软件都需要简单的代码基础,对新手并不友好。在这里推荐三款比较常用的在线服务器:swiss-model、phyre2和trRosetta的使用方法。目前在线服务器的预测精度根据评测文章结果与本地端软件间不相伯仲。无论使用哪一种蛋白建模方式,首先都需要获得对应蛋白质的氨基酸序列,蛋白的氨基酸序列可以从uniprot上获取。
登录uniprot官网在搜索框中检索对应的蛋白名称。
https://www.uniprot.org/
搜索完成后:
这里我们可以看到生成的搜索结果有许多个条目,这里根据我们研究的对象选择其相对应的属种,例如我们这里选择人源的H3R。点击Entry的编号Q9Y5N1可以索引到对应的条目信息中。定位到Sequence一栏,将蛋白序列信息拷贝或者下载下来。
首先是swiss-model:
swiss-model是一款全自动同源建模的在线服务器。https://swissmodel.expasy.org/
对于swiss-model而言,其操作在几次优化后已经变得十分简单,首先点击start modeling进入到建模页面并在Target序列框中提交自己的序列或是上传本地的FASTA序列。
而后提交建建模即可。新版本下的swiss-model的建模速度还是很快的。不是过于复杂的蛋白通常在一小时内都可以取得结果。
相比于早先版本的swiss-model,现在的swiss-model服务器会自动从数据库中检索同源性较高的模板,并从中选择较好的模板进行建模。
如果自己对建模的模板不满意,也可以自行到服务器中备选的模板中进行选择建模。
对于结构精确度的描述在图中展示了多项指标,其中最主要的是相似度和最后一项的Qmean的整体打分,通常我们更愿意相信相似度大于百分之25的模板。对于Qmean而言,它的值越接近0表示所建模型越精确,通常低于-4代表着结果不足以采信。
第二款软件便是基于折叠识别的phyre2,其使用方法与swiss-model类似,提交氨基酸序列和任务名邮箱即可。
http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index
任务提交后需要数小时的等待时间,可以在邮箱中查收结果。
phyre2的结果中除了给出了建模的3D结果外,同样也提供了蛋白3D结构的彩信度,同时在结果下也标注了其折叠信息的来源模板。
trRosetta是一款集成了多种建模理论方法和深度学习的在线服务器。其主要工作流程是:
(1)提交查询蛋白序列后,应用深层次神经网络预测氨基酸残基间的距离和方向分布。
(2)而后将预测距离和方向分布转换为平滑约束,用于引导Rosetta软件构建基于直接能量的 3D 结构模型。
https://yanglab.nankai.edu.cn/trRosetta/
通过在trRosetta上提交序列就可以直接进行结构的预测。
预测后系统会自动把打分靠前的前五个结构展示出来,评价Rosetta结构的好坏,主要基于它的TMscore打分这一项,其分数介于0-1之间,越接近于1建模的精度越高。
除此之外网上还有一些其它的建模服务器,各有各的特点,例如I-tasser等等。
当从建模结束后可以将结果从网站上下载下来,用Pymol、DS或是薛定谔等软件进行查看。
通过上面的内容想来大家已经了解了基础的建模的基本流程了,学会建模以后,我们不仅可以将结果用于科研来阐明蛋白结构和功能中的关系,也可以将高大上的蛋白结构图片放进我们汇报和论文中增添色彩。反复阅读不如上手实践,又靶点的小伙伴们快动起来,建出你的第一个蛋白模型吧。