AnimalTFDB:动物转录因子注释和预测tool
AnimalTFDB是一个全面的数据库,有经过鉴定、分类和注释的97个物种全基因组水平的125,135个TF基因和80,060个转录辅因子基因,由华中科技大学郭安源教授团队建立并维护其中,根据转录因子DNA结合结构域(DBD),将TF进一步分为73个家族,根据TF辅助因子功能分为83个家族和6类。还提供多种搜索浏览方式(Famliy、Species或自定义搜索)、2个在线预测工具Predict TF和Predict TFBS(分别可以批量预测转录因子和预测DNA序列上的转录因子结合位点)、Blast工具和数据下载功能。
AnimalTFDB
http://bioinfo.life.hust.edu.cn/HumanTFDB/#!/
首页上,我们可以看到整理好的TF和TF辅因子家族的分组和数量情况,以及右上方的Human TFDB,我们可以从这里进入找寻关于人类的转录组信息数据。接下来从六个方面进行介绍AnimalTFDB。
1 浏览
01 按family浏览
数据库将TF分为73个家族,将TF辅助因子分为83个家族。AnimalTFDB 将动物转录因子分为六大类(具体为Basic Domain Group、Zinc-Coordinating Group、Beta-Scaffold Factors、Helix-turn-helix、Other Alpha-Helix Group和Unclassified Structure),动物转录辅助因子也分为六大类(具体为Co-activator/repressors、Chromatin Remodeling Factors、General Cofactors、Histone-modifying Enzymes、Cell Cycle和Other Cofactors)。
点击AP-2,可看到TF Family: AP-2 (471 TFs)的相关信息:
紧接着可以点击Ailuropoda_melanoleuca看看(下方第一个数据)可以看到相关注释:
激活蛋白2(AP-2)转录因子构成与DNA共有序列GCCNNNGGC结合并刺激靶基因转录的紧密相关且进化保守的蛋白家族[ PMID:2010091,PMID:1998122 ]。在哺乳动物中已经鉴定出四种不同的AP-2亚型,称为AP-2α,β,γ和δ。每个家庭成员都有一个共同的结构,在N端区域具有一个脯氨酸/富含谷氨酰胺的结构域,负责转录激活[ PMID:2010091 ],在C端区域具有一个螺旋-跨-螺旋结构域,介导二聚化和位点特异性DNA结合。还可以点击 Multi-alignment、WebLogo of Multi-alignment查看多重对比和多重对齐WebLogo。
总的来说,提供注释信息内容构成,如下图所示:
一起来看看:
点击Entrez ID,会看到转录因子AP-2 beta 的基因组背景、转录本和产物以及序列信息如下:
点击Ensembl ID 可以看到基因相关信息:
①基因卡
这里有关于基因的一系列基本信息,包括但不限于编号、符号、基因类型以及笔录ID 的长度和蛋白质编号。
②基因模型
③蛋白质功能域
④基因本体论
⑤TF相关的GWAS表型
⑥TFBS(TF结合位点)
⑦表型
⑧PPI-蛋白质-蛋白质相互作用
⑨注释
⑩Ortholg
⑪表达
TF mRNA expression in TCGA cancer types:
Gene expression in cell lines:
Gene expression in normal tissues:
Gene expression in normal tissue and celllines obtained from Bgee database:
TF protein expression obtained form Human Protein Map:
02 按物种浏览
在AnimalTFDB数据库中,参考集合数据库将所有97种分为12类。我们可以通过单击物种的徽标来浏览数据库,物种->家族->家族基因列表->单基因注释适用于这种浏览方式。家族基因列表页面还显示了DBD的多重序列比对,这些TF的多重比对的weblogo图以及该TF家族的简要介绍和参考,和按家族提供的内容是一样的,不同在于分组依据。
2 搜索
在导航栏上,我们可以快速找到Ensembl基因ID,Entrez基因ID或基因符号的搜索框。
高级搜索页面提供了多种搜索数据库的方式。我们可以通过不同的基本信息(多个基因ID,基因符号,别名和全名),注释信息(蛋白质-蛋白质相互作用,基因本体论,途径,直系同源物和旁系同源物),TF的mRNA或蛋白质表达进行搜索。对于表达搜索,可以选择特定物种,组织类型,细胞系,发育阶段和癌症以及基因表达水平的最低阈值来筛选搜索结果,非常强大。
以Search by basic information,Ensembl Gene ID 的ENSG00000072364进行搜索,结果如下:
点击ENSG00000072364,可以看到如下及Gene Card、Gene Model、Protein Functional Domain、Gene Ontology、TF related GWAS phenotype、Phenotype、PPI-Protein-Protein Interaction、Paralog、Ortholg、Expression于一页的内容信息,下图展示前三部分:
3 TF预测
转录因子(TFs)是通过与特定DNA序列结合来激活或抑制基因表达的关键调控因子。每个TF具有至少一个在进化中保守的DNA结合结构域(DBD)。为了帮助用户从自己的蛋白质序列中识别TF,网站设置了TF预测服务器。预测方法和TF族分配规则可以在预测和TF族分配规则页面中找到。目前,用户可以一次上传多达1000个蛋白质序列,并在几分钟内获得结果。在预测结果中,将提供TF族,比对e值和详细的比对信息。
PS:要以FASTA 格式输入蛋白质序列(少于1000个蛋白质序列)。
左边输入序列,右边展示预测结果,详细内容如下:
4 TF结合位点预测
为了帮助用户从自己的核苷酸序列中识别TF靶标,网站在当前版本中添加了TFBS预测服务器。预测依据是从TRANSFAC,JASPAR,HOCOMOCO和hTFtarget数据库中收集了TF基序矩阵。使用MEME Suite(http://meme-suite.org/index.html)的图案检测功能,使用这些矩阵扫描人类的比对序列以预测TF目标。在预测结果中,将显示TF结合位点序列,得分,P值,Q值和详细的比对信息。此外,可以通过过滤器栏显示特定的TF结果,预测结果可以免费下载。
5 Blast
这里可以帮助我们找到同源基因并探索研究欠缺的TF的功能,BLAST工具可以搜索数据库中具有蛋白质或DNA序列的TF和转录辅因子。也可以选择所有物种或一个特定物种的蛋白质序列作为BLAST数据库,可以选择特定的e值。下图是示例序号的结果:
最后,TFs的基因列表,每种物种的转录辅因子可以从下载页面下载,包括:Human TF list、Human TF protein sequence、Human TF Cofactor list、Human TF Cofactor_protein sequence。同时人类转录因子使用的广泛需求,作者在新版AnimalTFDB数据库中单独设计了一个人类TF数据库网络界面,在导航模块可以找到入口,使用的时候别忘记了呀。
References
AnimalTFDB 3.0: a comprehensive resource for annotation and prediction of animal transcription factors. Hui Hu$, Ya-Ru Miao$, Long-Hao Jia, Qing-Yang Yu, Qiong Zhang and An-Yuan Guo*. Nucl. Acids Res. (11 September 2018).
END