基因表达调控系列问题汇总(持续更新) - 知乎

前言

整理这个专题的缘由,是在朋友圈看到的求助信息。于是我想把我之前了解或者是做过的一些东西整理一下。

Q1: 哪个TF(转录因子)调控了我的基因集?

假设你有一个genelist:

Gene1
Gene2
Gene3
Gene4
...

这个genelist可以有很多来源,可以是RNASeq的差异基因,也可以是其他的,等等。你很好奇这个genelist是被哪些TF调控的,有三个方法。

A1: cistrome-LISA
原文答案参考来源:https://mp.weixin.qq.com/s/DI8fxtKSuZ_LemxhFznSDg
LISA网址:http://lisa.cistrome.org/

听说LISA的时候,我还没毕业,以旁听生身份参加了一次亚洲冷泉港会议,一位来自同济的Ph.D. Student做poster展示。如今发表在GB上,以cistrome db为基础,进行的预测,可以说可信度较高。
这个方法原文答案已经很详细了,我就不当搬运工了。

A2: TF富集分析
LISA没出之前,用Y叔的clusterprofiler的enricher做的,TF的数据是从TRRUST(https://www.grnpedia.org/trrust/)下载的。懂点生信的人可以用这个方法。网上也有类似的教程。clusterprofiler的enricher应用广泛,可以但不局限于GO/KEGG(有专门的function),以及上面提到的TF。只要你有用于富集分析的背景数据。不懂编程请看A3。

A3: TRRUST的2.Find key regulators for query genes
TRRUST(https://www.grnpedia.org/trrust/

以上,仅作参考。

Q2: 我想看我的TF调控了哪些gene?

A:查看转录因子数据库
这个举一个列子,Q1提到的TRRUST数据库,只支持human和mouse。Search界面输入TF name即可,Download提供所有TF的下载链接。

Q3: 有没有生物分子互作数据库?

A:接触过一个,BioGRID(The Biological General Repository for Interaction Datasets)
BioGRID网址:https://thebiogrid.org/
记录蛋白与基因的互作信息。可以通过By Identifier 和 By Publication。

Q4: 我有一个genelist,想知道它们的功能以及其他一些注释信息

A1: metascape
网址:http://metascape.org/

Express Analysis 和 Custom Analysis区别在于你的gene有没有表达谱数据,有的话可以做Express Analysis。没有就 Custom Analysis,选一下物种。然后跳转到如下界面:

选择Annotation后:

勾选想要的信息,点一下Apply

然后点击Analysis Report Page:

根据需要下载Excel表格或是ppt,或是zip压缩文件。

A2: DAVID
没能打开,先空着吧。不是很推荐这个。
成功打开了。网址:https://david.ncifcrf.gov/

我不得不吐槽这网址的风格真的是丑瞎眼睛啊。
看最左边的框框,可以看到网站支持的四个功能,Functional Annotation, Gene Functional Classification, Gene ID Conversion, Gene Name Batch Viewer。
总体来说,体验太差。

GO分析使用教程:
Step1: 进入Functional Annotation界面
Step2:在Upload处粘贴genelist,选择GeneID的类型,常见的有ENSEMBL_GENE_ID和ENTREZ_GENE_ID,再选择是Gene List, 然后Submit。

为什么存在Background选项?
答:Background 即背景基因集,就是你的Genelist需要比较的对象,一般默认是全基因组中的所有基因。也有的使用的是技术平台所能检测到的基因,或者是包含可能阳性结果的基因。

Step3: Submit后会跳转到List界面,我这里用Demolist1演示。这里我们可以看到Annotation Summary Results了。看到第三个Gene_Ontology了没,就是GO的结果了。

点一下,出现下面的结果,有点和常见的不太一样?看见那个Chart了吗?再点一下。

新弹出的窗口是不是就是你熟悉的了?

OK,到此结束。

Q5: 我有genename,怎么找promoter?

A:EPD数据库
网址:https://epd.epfl.ch/index.php
输入gene name

结果可跳转到UCSC genome 浏览器,getFASTA可以拿到fasta序列。UCSC genome 浏览器也可以用于查找特定位置的基因组序列。
UCSC genome browser: http://genome-asia.ucsc.edu/cgi-bin/hgGateway

Q6: 有没有细胞marker数据库?

A:有, cellmarker。
网址:http://biocc.hrbmu.edu.cn/CellMarker/
支持human和mouse。

Q7:分子实验中需要的常用计算(如连接反应中插入片段与载体的摩尔比例)不懂怎么办?

A:NEB的BioCalculator。

Q8:有没有什么工具可以求两个genelist的overlap?

A:可以用Venny。
Venny:https://bioinfogp.cnb.csic.es/tools/venny/
最多可以做四个list哦。

Q9:在线多序列比对及保守序列作图有哪些工具?

教程原文:http://www.bioengx.com/cosnerved-sequence/

Stan的教程写得很详尽了,故先列出来。

除去教程中提到的EBI的Clustal Omega,还有其他的网页工具可以进行多序列比对。

ExPASy ClustalW:https://embnet.vital-it.ch/software/ClustalW.html

PBIL CLUSTALW: https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html

我们可以看出使用的都是Clustal工具。一般提到序列比对,第一个想到的是BLAST。就我的理解,BLAST针对的是一对多,用于找出数据库中与目的序列最佳的局部比对序列。而ClustalW则是多对多,用的是全局比对。

多序列比对工具除了Clustal,还有TCOFFEE,MUSCLE。没接触过,就不详细展开了。

WUR T-Coffee: http://tcoffee.crg.cat/apps/tcoffee/index.html

T-Coffee: http://www.bioinformatics.nl/tools/t_coffee.html

EBI T-Coffee:https://www.ebi.ac.uk/Tools/msa/tcoffee/

EBI MUSCLE: https://www.ebi.ac.uk/Tools/msa/muscle/

MAFFT:https://mafft.cbrc.jp/alignment/server/index.html

EBI MAFFT:https://www.ebi.ac.uk/Tools/msa/mafft/

就网站界面来看,EBI应该是最友好的,汇总也很全。

网址:https://www.ebi.ac.uk/Tools/msa/

Q10:在线画个Sequence logo图

A sequence logo is a graphical representation of an amino acid or nucleic acid multiple sequence alignment.

Weblogo: http://weblogo.berkeley.edu/logo.cgi

随手画了个图看看:

升级版 Weblogo3: http://weblogo.threeplusone.com/

2020年4月30日更新。

PS: 知乎这不兼容的编辑器啊,我从语雀复制过来,还得重新排版。

语雀原文:https://www.yuque.com/docs/share/7f3362b6-b7e1-49fd-8d56-07f34615084c?#

(0)

相关推荐