cytoscape十大插件之九 - 转录调控王者 iRegulon

五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。文末有录播回放学习方式,以及配套授课资料!

下面是cytoscape讲师的笔记

一、iRegulon插件

  • 基因调控网络通过调节基因的表达量和时间-空间分布特征影响生物发育,维持内稳态和疾病发生发展。因此,明确基因调控网络的拓扑学原理有助于对机制深入探讨。**基因调控网络由转录因子与其直接靶基因之间的相互作用组成。**每一种调控相互作用都代表着转录因子与靶基因附近特定DNA结合位点。

  • 在这里,我们提出一个计算方法,称为iRegulon,以识别目标基因的重要调控因子

  • iRegulon插件主要使用近10000个TF motifs数据库和1000个ChIP-seq数据集或“tracks”来检测富集的TF motifs或ChIPseq峰。接下来,它将富集的TF motifs和“tracks”与靶点基因联系起来。iRegulon作为一个Cytoscape插件,支持人类、小鼠和果蝇基因。(可理解成tracks是和motifs差不多的数据库)

二、基本概念

我们先了解下一些基本概念~

2.1 转录因子

  • DNA→mRNA→蛋白质是典型的中心法则之一。而DNA转录的开始就需要转录因子的参与。从定义上来说,转录因子是一群能与基因5'端上游特定的序列专一性结合,从而保证目的基因以特定的方式转录翻译成蛋白质

  • 转录因子的本质是与DNA特异性结合的一系列蛋白质。一般有不同的功能区域,如DNA结合结构域与效应结构域

  1. DNA-binding domain(DBD): DNA结合结构域。负责结合基因组调控区的DNA序列
  2. Effector Domain(s):调控效应区结构域。
  • 调控转录因子活性。

  • 介导蛋白与蛋白互作(PPI)。

  • 具有调节组蛋白相关底物的酶学活性

2.2 转录因子结合位点(Transcription factor binding site,TFBS)

  • 与转录因子结合的DNA片段,长度通常在5~20 bp范围内,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,又不完全相同。

2.3 顺式调控模块(Cis-Regulatory Module, CRM)

  • 转录调控通常需要多个转录因子的合作, 它们的TFBS之间距离较近 , 组成相应的“顺式调控模块”

2.4 motif序列

  • motif: recurring pattern. eg, sequence motif, structure motif or network motif

  • DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function

  • 从上边的定义可以看出,其实motif这个单词就是形容一种反复出现的模式,而序列motif往往是DNA上的反复出现的模式,并被假设拥有生物学功能。

  • 我们使用术语”motif”或“pattern”在模型的意义上代表一个TF结合位点的特异性,而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)

  • 通过motif 序列,我们可以研究相应转录因子的功能,预测潜在的结合位点等等,因而搜索、计算出motif,成为转录因子研究的重要一步

三、工作原理

3.1 排序

  • 第一步是排序,根据PWM库(PWM is a matrix representation of a regulatory motif)对22284个人基因进行排序,对每个基因,我们用隐马可夫模型(Hidden Markov Model)搜寻转录起始点(TSS)附近(如500bp,20kb或10kb)的区域的顺式调控模块(CRM)

  • 如果从N个PWM库开始,就可以建立N个基因排序,每个基因排序都把最有可能的目标基因的motif排在最前面。然后在10种其它同源物种中重复上述工作,每个PWM的最终排序就通过这10个物种的综合排序获得。

  • 这里有两种PWM库,一个是6K库,一个是10K库。这些库包含来自不同物种的PWM,以及没与TF对应的PWM。最终结果得到一个SQLite数据库,这个库里包含有N个基因排序。

3.2 回收

  • 第二步:回收。需要共表达基因作为输入信息。就是探讨这些基因在哪些PWM所对应的基因排序中富集,具体可以用AUC来表示。AUC通过计算前3%(默认值,对应FDR在3%-9%)基因里包含多少比例的共表达基因来表示

四、操作演示

4.1 插件下载

  • 可参考前面推文

4.2 导入数据

  • 今天我举的例子是利用插件的常用情况:如何预测靶基因的转录因子??

  • 首先准备靶基因

  • 只有一列,选择source node即可

4.3 预测TF

  • 先选中需要预测TF的靶基因(黄色为已选中)
  • 打开Apps--iRegulon--Predict regulators and targets
  • 出现以下参数窗口
  • Node information
    • Number of selected genes: 所预测的基因数目
  • Ranking:
    • Type of search space: 基于基因
    • Motif collection: 10k / 6k
    • Track collection: 1120 ChIP-seq/ 750
    • Putative regulatory region:起始位点上下游端
    • Motif / Track rankings database: 排序所根据的数据库
  • Recovery:
    • 富集分数
    • AUC值
    • 排序阈值
  • TF prediction
    • FDR:发现错误率

4.4 结果

结果主要分三个部分:Motifs,Tracks,Transcription Factors

Motifs

  • 会在cytosacpe右侧面板出现结果。先选择Motifs
  • **Enriched Motif ID:**特征序列ID、
  • **NES:**根据PWM库富集出来计算得分。类似匹配程度
  • **AUC:**基因里包含多少比例的共表达基因来表示
  • ClusterCode : 聚类(根据相似的Motifs)
  • **#Target:**目标基因数目
  • **#TF:**转录因子数目

如选择第三行后,出现下方的内容

  • 左边:**logo展示图:**用于描述序列特征
    • 内容:ATCG
    • 字母的相对大小表示它们在序列中的频率
    • 每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位
  • **Transcription Factor:**转录因子
  • **orthologous identification:**同源性
  • Motif Simialrity : Motif 间相似性
  • 右边就是靶基因的名称

Tracks

  • Motif 和 Tracks 应该是两个类似的求TF的数据库,出来的结果列名也类似,不过一般选择 Motifs的结果

Transcription Factors

  • 选择 Transcription Factors后,列表主要以TF呈现结果
  • 如选择第一行 SOX10
  • A :TF 对应的两个 Motifs
  • B:两个Motifs 总共对应的 TF。其中Filter 绿色✔即为第一行Motifs对应的TF
  • C:该TF 对应的靶基因

4.5 网络图

  • 画网络图时,如果对对应靶基因最多的TF感兴趣,直接选中,点击上方➕,就可出现对应网络

五、预测靶基因

  • iRegulon 插件还能通过 TF 预测靶基因
  • 选择对应TF(插件内有选择)
  • 得到网络,可调整 layout

六、心得

  • 插件需要调整的参数较多,一般都是在原理涉及到的数据库,若想了解个中缘由可查看对应插件文献

一般文献默认参数,结果挑选对应靶基因最多的TF进一步研究

  • Curcumin suppresses LGR5(+) colorectal cancer stem cells by inducing autophagy and via repressing TFAP2A-mediated ECM pathway - PubMed (nih.gov)

也可构建miRNA-target gene-TF 网络

  • 大家可模仿一下这篇文献,先构建好miRNA网络,再根据文献对应参数,就可以出来和文章一样的网络图!

  • Identification of MicroRNA-Target Gene-Transcription Factor Regulatory Networks in Colorectal Adenoma Using Microarray Expression Data (nih.gov)

  • 参考:

  • iRegulon webpage · Tutorial (aertslab.org)

  • iRegulon: From a Gene List to a Gene Regulatory Network Using Large Motif and Track Collections (plos.org)

  • Discovering protein-binding RNA motifs with a generative model of RNA sequences - ScienceDirect

  • The Human Transcription Factors - ScienceDirect

  • 转录因子结合位点生物信息学研究进展 (chinagene.cn)

大家可以 自行下载钉钉软件申请进群看录播以及下载课程配套资料,“cytoscape网络图绘制”群的钉钉群号:34970303

文末友情推荐

(0)

相关推荐