cytoscape十大插件之九 - 转录调控王者 iRegulon
五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。文末有录播回放学习方式,以及配套授课资料!
一、iRegulon插件
基因调控网络通过调节基因的表达量和时间-空间分布特征影响生物发育,维持内稳态和疾病发生发展。因此,明确基因调控网络的拓扑学原理有助于对机制深入探讨。**基因调控网络由转录因子与其直接靶基因之间的相互作用组成。**每一种调控相互作用都代表着转录因子与靶基因附近特定DNA结合位点。
在这里,我们提出一个计算方法,称为iRegulon,以识别目标基因的重要调控因子。
iRegulon插件主要使用近10000个TF motifs数据库和1000个ChIP-seq数据集或“tracks”来检测富集的TF motifs或ChIPseq峰。接下来,它将富集的TF motifs和“tracks”与靶点基因联系起来。iRegulon作为一个Cytoscape插件,支持人类、小鼠和果蝇基因。(可理解成tracks是和motifs差不多的数据库)
二、基本概念
我们先了解下一些基本概念~
2.1 转录因子
DNA→mRNA→蛋白质是典型的中心法则之一。而DNA转录的开始就需要转录因子的参与。从定义上来说,转录因子是一群能与基因5'端上游特定的序列专一性结合,从而保证目的基因以特定的方式转录翻译成蛋白质。
转录因子的本质是与DNA特异性结合的一系列蛋白质。一般有不同的功能区域,如DNA结合结构域与效应结构域
DNA-binding domain(DBD): DNA结合结构域。负责结合基因组调控区的DNA序列 Effector Domain(s):调控效应区结构域。
调控转录因子活性。
介导蛋白与蛋白互作(PPI)。
具有调节组蛋白相关底物的酶学活性
2.2 转录因子结合位点(Transcription factor binding site,TFBS)
与转录因子结合的DNA片段,长度通常在5~20 bp范围内,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,又不完全相同。
2.3 顺式调控模块(Cis-Regulatory Module, CRM)
转录调控通常需要多个转录因子的合作, 它们的TFBS之间距离较近 , 组成相应的“顺式调控模块”
2.4 motif序列
motif: recurring pattern. eg, sequence motif, structure motif or network motif
DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function
从上边的定义可以看出,其实motif这个单词就是形容一种反复出现的模式,而序列motif往往是DNA上的反复出现的模式,并被假设拥有生物学功能。
我们使用术语”motif”或“pattern”在模型的意义上代表一个TF结合位点的特异性,而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)
通过motif 序列,我们可以研究相应转录因子的功能,预测潜在的结合位点等等,因而搜索、计算出motif,成为转录因子研究的重要一步
三、工作原理
3.1 排序
第一步是排序,根据PWM库(PWM is a matrix representation of a regulatory motif)对22284个人基因进行排序,对每个基因,我们用隐马可夫模型(Hidden Markov Model)搜寻转录起始点(TSS)附近(如500bp,20kb或10kb)的区域的顺式调控模块(CRM)
如果从N个PWM库开始,就可以建立N个基因排序,每个基因排序都把最有可能的目标基因的motif排在最前面。然后在10种其它同源物种中重复上述工作,每个PWM的最终排序就通过这10个物种的综合排序获得。
这里有两种PWM库,一个是6K库,一个是10K库。这些库包含来自不同物种的PWM,以及没与TF对应的PWM。最终结果得到一个SQLite数据库,这个库里包含有N个基因排序。
3.2 回收
第二步:回收。需要共表达基因作为输入信息。就是探讨这些基因在哪些PWM所对应的基因排序中富集,具体可以用AUC来表示。AUC通过计算前3%(默认值,对应FDR在3%-9%)基因里包含多少比例的共表达基因来表示
四、操作演示
4.1 插件下载
可参考前面推文
4.2 导入数据
今天我举的例子是利用插件的常用情况:如何预测靶基因的转录因子??
首先准备靶基因
只有一列,选择
source node
即可
4.3 预测TF
先选中需要预测TF的靶基因(黄色为已选中) 打开 Apps
--iRegulon
--Predict regulators and targets
出现以下参数窗口 Node information Number of selected genes: 所预测的基因数目 Ranking: Type of search space: 基于基因 Motif collection: 10k / 6k Track collection: 1120 ChIP-seq/ 750 Putative regulatory region:起始位点上下游端 Motif / Track rankings database: 排序所根据的数据库 Recovery: 富集分数 AUC值 排序阈值 TF prediction FDR:发现错误率
4.4 结果
结果主要分三个部分:Motifs,Tracks,Transcription Factors
Motifs
会在cytosacpe右侧面板出现结果。先选择Motifs **Enriched Motif ID:**特征序列ID、 **NES:**根据PWM库富集出来计算得分。类似匹配程度 **AUC:**基因里包含多少比例的共表达基因来表示 ClusterCode : 聚类(根据相似的Motifs) **#Target:**目标基因数目 **#TF:**转录因子数目
如选择第三行后,出现下方的内容
左边:**logo展示图:**用于描述序列特征 内容:ATCG 字母的相对大小表示它们在序列中的频率 每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位 **Transcription Factor:**转录因子 **orthologous identification:**同源性 Motif Simialrity : Motif 间相似性 右边就是靶基因的名称
Tracks
Motif 和 Tracks 应该是两个类似的求TF的数据库,出来的结果列名也类似,不过一般选择 Motifs的结果
Transcription Factors
选择 Transcription Factors后,列表主要以TF呈现结果 如选择第一行 SOX10 A :TF 对应的两个 Motifs B:两个Motifs 总共对应的 TF。其中Filter 绿色✔即为第一行Motifs对应的TF C:该TF 对应的靶基因
4.5 网络图
画网络图时,如果对对应靶基因最多的TF感兴趣,直接选中,点击上方➕,就可出现对应网络
五、预测靶基因
iRegulon 插件还能通过 TF 预测靶基因
选择对应TF(插件内有选择) 得到网络,可调整 layout
六、心得
插件需要调整的参数较多,一般都是在原理涉及到的数据库,若想了解个中缘由可查看对应插件文献
一般文献默认参数,结果挑选对应靶基因最多的TF进一步研究
Curcumin suppresses LGR5(+) colorectal cancer stem cells by inducing autophagy and via repressing TFAP2A-mediated ECM pathway - PubMed (nih.gov)
也可构建miRNA-target gene-TF 网络
大家可模仿一下这篇文献,先构建好miRNA网络,再根据文献对应参数,就可以出来和文章一样的网络图!
Identification of MicroRNA-Target Gene-Transcription Factor Regulatory Networks in Colorectal Adenoma Using Microarray Expression Data (nih.gov)
参考:
iRegulon webpage · Tutorial (aertslab.org)
iRegulon: From a Gene List to a Gene Regulatory Network Using Large Motif and Track Collections (plos.org)
Discovering protein-binding RNA motifs with a generative model of RNA sequences - ScienceDirect
The Human Transcription Factors - ScienceDirect
转录因子结合位点生物信息学研究进展 (chinagene.cn)
大家可以 自行下载钉钉软件申请进群看录播以及下载课程配套资料,“cytoscape网络图绘制”群的钉钉群号:34970303