必看! 2020年科研中的18个高频问题(一)
2020年快结束了,吉凯基因在此感谢各位老师在过去一年中的大力支持。
2020年的岁末,吉凯基因针对老师们在科研中遇到的一些常见、基础、但又非常重要的问题进行年终总结。搬砖小陈抽丝剥茧,提取出十八个问题,以两期文章阐述,涉及过表达转录本选择、基因下调注意事项、荧光素酶实验、细胞感染、动物实验等多方面问题,希望能帮助老师们在前端设计时避免入坑。
// 一个基因的转录本那么多,我该如何选择进行构建呢?
在NCBI数据库,以人的为例,大部分基因含有的转录本不止一个(如TP53含15个,STAT1含14个),这还不算其他数据库的数据,少量基因能达到百余个转录本,为何转录本如此多产?
前体RNA在剪切的过程中,通过外显子的去除或者保留,产生不同序列的转录本,转录本的产生受到细胞类型、细胞状态,发育时间等因素的影响,也就是众多转录本在一种细胞中往往不会同时产生。少数转录本之间功能不同(如PKM基因的两个亚型M1和M2,在胚胎发育过程中,M2逐渐被M1所取代;在肿瘤发生过程中,M1下调而M2则再度表达, M2在癌细胞中发挥着独特的作用)。如果转录本编码区长度相近,大部分情况下功能是类似的,也就是可以替代使用的。
常规转录本的选择有三点建议:
1. 根据对应的参考文献选择。按照要做的功能,构建参考文献的转录本(大部分文献不会写转录本ID,可以根据蛋白大小、位点信息等确认转录本ID);
2. 选择编码区较长的转录本构建,因为编码区越长,含有的结构域信息越多,功能也会越全;
3.查询蛋白数据库,里面收录常做的,规范型转录本,如下:
如果想要知道不同亚型之间的差异,可以在NCBI-GENE主页的“Genomic regions, transcripts, and products”图中查阅转录本之间的差异性,解读方式如下:
以NM_000546和为例NM_001276697,前者比后者N端多了三个外显子,编码区多了近159个氨基酸,再结合UNIPROT收录的结构域信息,就知道差异的氨基酸区段跟方框涉及的功能有差异:
要了解更多转录本选择标准,可见《So many transcripts,选择哪个做过表达研究呢?》。
//构建了质粒/病毒,转到细胞,发现WB验证无上调,是怎么回事?
蛋白水平表达效率不高,可从以下几点分析:
1. 质粒/病毒的转导效率是否高?质粒对于大部分细胞,转染效率较低,且随着细胞传代,会逐步丢失;而病毒感染效率也因细胞类型差异而不同,实际操作过程中,建议用载体自带的荧光或者抗性,将未转导进质粒/病毒的细胞去除,再进行检测;
2. 因实验需要,如果质粒/病毒未带荧光,而直接用药物筛选,需要确认药物浓度是否为最佳。在感染病毒前,应做药筛的预实验,摸索最佳药筛浓度,尽可能杀死空细胞。即便目的病毒未带荧光,也建议加一组既带荧光,也带抗性的对照病毒做预实验;
3. 很多细胞都有合适的启动子,如悬浮类用SFFV、干细胞优选EF1A、常规细胞或者肿瘤细胞可选CMV(无法表达于神经元)。老师们多喜欢用商业化载体做构建,如pcDNA3.1、pEGFP-N1等,因为文章好写,但不一定适合自己细胞的表达。吉凯基因将商业化载体改造,得到了比常规CMV启动子表达更强的启动子,解决了很多蛋白表达效率低的问题,由此可见,选择高表达的启动子很重要。
// 做基因干扰,为什么文章被驳回了?
RNA干扰作为下调基因最常用的方式,人尽皆知,但当你觉得文章天衣无缝时,编辑的一句 “Need rescue mutation”或者“Need one more target siRNA”,你又得重新将实验再做一遍。
无论是siRNA,还是CRISPR/Cas9,都存在脱靶现象。以siRNA为例,设计靶点时,设计者会将siRNA靶点与现有核酸数据库中的非靶标序列碱基错配3个以上,以确保靶点不会靶向外源基因。但由于siRNA形成机制与miRNA高度类似,因此,siRNA可以潜在的以miRNA途径,即依靠7bp左右的序列结合非靶标基因,从而产生脱靶现象,而这一过程,blast是无法排除掉的。
因此,为了防止细胞功能变化是因为潜在的脱靶引发的,审稿人要求,要将靶基因做拯救实验---即将siRNA针对的基因做同义突变,再回输细胞进行过表达,看功能是否发生逆转,如果是,就说明功能与靶基因是关联的;当然,也可以用两条有效的siRNA做同步实验,由于两条siRNA序列不同,脱靶至同一基因的概率几乎为零,也能排除脱靶性。详情见《你的RNAi文章为什么被驳回?》。
// 非编码RNA为什么下调无效?
circRNA、lncRNA目前是研究热点,但siRNA下调这类分子普遍较难,主要有以下几大原因:
1.一部分非编码RNA定位细胞核,siRNA路径主要适用胞浆;
2.很多非编码分子表达水平较低,siRNA与靶基因结合是布朗运动随机碰撞结合表达量越低,敲减效率就越低
3.lncRNA含有较严重的二级结构,且多与蛋白结合,影响了siRNA的结合
4.circRNA多为外显子成环,可供设计靶点的区域只有30bp左右,能设计的siRNA及其有限
鉴于以上原因,相对于与mRNA难敲减情有可原。实际操作过程中,尽量多做些siRNA尝试,如果实在无效,只能采取CRISPR/Cas9将lncRNA从基因组上剔除,circRNA可以剔除内含子中促进成环的ALU序列,详情见《学会lncRNA沉默的方法,从此lncRNA研究不发愁!》。
// 启动子为什么默认取2k,可以做长或者短点吗?
实际上,启动子分为两部分:
其一:核心启动子—即含有CAAT box与TATA box的基础转录活性单元,长约100bp,紧挨着转录起始位点(TSS),这段序列是实际上的启动子,构建时必须包含,但是转录活性很低。
其二:启动子调控区—由于核心启动子活性低,而基因表达调控是受启动子上下游的调控序列实现的,比如甲基化、转录因子调控、增强子调控等。我们说的研究启动子,实际上是研究调控区的位置,以转录因子为例,70%~80%的基因,调控区位于TSS上游2k以内,所以我们默认取2k构建。当然,一些基因的调控区位于远端(5k、10k、甚至更长都是可能的),或者内含子中,但如果没有CHIP等实验的验证,盲取是不可行的。如果实验验证转录因子与启动子有结合,但2k无结合,可以延长启动子构建,或者以chip实验分析具体结合区段,再进行双荧光素酶验证即可。
// 验证转录因子与启动子的结合,如何找出具体结合位点?
取启动子时,我们都会以转录因子预测网站如jaspar预测结合位点,并给出相应评分。如果只有少量位点,或者位点之间评分差异较大,则可以直接突变做验证;
但转录因子靠10bp左右的基序结合DNA,预测的结果往往较多,且评分相近,这种想一步到位做突变验证出阳性结合区域是不现实的。标准的做法是,构建启动子截断型、CHIP、EMSA,进一步确认结合区域。
小鼠Dcx启动子,截断证实活性区最短为249bp
再根据验证出的阳性结合区域中的结合位点,做突变验证即可:
249bp中的转录因子结合位点分别突变,
确认具体调控的转录因子
// 我要做的转录因子在数据库未收录,是什么情况,还能预测吗?
转录因子数据库有很多,目前使用频率较高的是Jaspar,该数据库严谨性高,非冗余,但也未收录所有转录因子的结合基序信息。此时,可以查询其他数据库有没收录;此外,很多蛋白有DNA结合能力,但本身不属于转录因子,此类在任何转录因子数据库都是不会收录的。
如果是非转录因子,或者转录因子数据库都未收录,此时可以查询文献,确认 结合DNA的特征,此法也适用于蛋白与RNA的结合,如下列HuR的motif,如果要做HuR与基因的结合,直接以基序兼并碱基的方式在靶基因序列里面搜索即可。
HuR蛋白结合RNA的motif
若motif也查询不到,那就只能自行研究了,可将蛋白结合的多个片段进行富集,进行同源性分析,找出共有碱基,具体方法参考文献《Identification of a target RNA motif for RNA-binding protein HuR》。
// miRNA与编码基因的结合,网站没有预测到结合,还能做吗?
targetscan、mirdb这些主流预测miRNA与编码基因结合的网站,都是基于种子区结合,也就是miRNA成熟体第二位碱基开始的连续6~8个碱基(hsa-miR-21-5p:
UAGCUUAUCAGACUGAUGUUGA),才计算结合可能性。实际上,种子区结合并不是绝对的,如果种子区有个别碱基的错配,或者miRNA全序列跟靶基因匹配度较高,则两者也是可能结合的,如TP53与mir-21的结合就不符合种子区结合特征,但实际是有结合的:
mirtarbase收录的人TP53与mir-21的结合
非种子区结合的可以借助rnahybrid这类网站分析,数据库具体使用方式见《视频教程∣做miRNA研究,miRNA靶基因预测会了吗?》。
1.实验技术干货
2.腺病毒介绍及应用
5.悬浮细胞专用病毒
10.腺相关病毒选择/应用
11.蛋白组学研究
12.表观遗传研究
13.文章解析
14.国自然课题设计思路解析
15.生物信息分析及工具
16.外泌体研究
17.肿瘤免疫研究
18.临床基础研究思路解析
19.高分文章
20.单细胞测序