RepeatMasker使用

RM是library-based,通过相似性比对来识别重复序列,可以屏蔽序列中转座子重复序列和低复杂度序列(默认将其替换成N)。使用数据库Dfam和Repbase。

The Dfam database is a collection of Repetitive DNA element sequence alignments, hidden Markov models (HMMs) and matches lists for complete Eukaryote genomes.

Repbase是由美国遗传信息研究所(GIRI)创建并维护,收录了转座子和其他重复序列及其注释信息。

本地安装RepeatMasker,除了需要RepeatMasker主程序外,还需要TRF(Tandem Repeats Finder)、序列搜索引擎(以RMBlast为例)以及Repbase数据库。

搜索引擎可以安装多个,但是每次只能用一个。

Using RepeatMasker to Identify Repetitive Elements in Genomic Sequences

要屏蔽的区域:low-complexity DNA sequences and  interspersed repeats

比对引擎:cross_match WU-BLAST(更快)

如果DNA source没有参考基因组,那么需要用RECON或者RepeatScout建立一个Repbase类型的文件

安装:

http://www.repeatmasker.org/RMDownload.html

sequence search engine

cross_match 要注册啥的,没搞

RMBlast blast的修改版本,此处用了2.2.28版本,需要下载http://www.repeatmasker.org/RMBlast.html

这里的两个binary,然后解压就可以了

HMMER 下载v3.1b2版本

ABBlast/WUBlast 也要注册啥的,没弄

TRF

下载TRF v4.0.4

Repeat database

下载Dfam和RepBase(要注册下载)

装完之后用./configure配置,修改好path就可以了。

暂时设置RMBlast为default。

最简单的命令

RepeatMasker/RepeatMasker -species human sequence.fasta

最常用:

./RepeatMasker -species human -engine hmmer

除了控制台输出外,还会在同目录下产生几个文件:

输入文件名.cat    //不懂

输入文件名.masked  // 已屏蔽完的fasta序列

输入文件名.out // 重复区域的统计信息,如类型,位置等

输入文件名.tbl

各种统计信息

阈值设定:

-lib 指定数据库,default是灵长类的

-cutoff 使用-lib时设置阈值,默认225。cutoff 值低的会有错配。

-nolow 不去mask low-complexity DNA or simple repeats

-div sets the divergence level to limit the masking and annotation to a subset

of less diverged (younger) repeats.

速度设定:

-q 快

-qq  更快

-s 慢就更灵敏

-pa 如果有多个输入或者输入很大,可以考虑多处理器加速

-w WU-BLAST比cross_match快,但是后者更准确

如果长序列效果不好,可以修改RepeatMasker中的$maxsize,改大,但是内存需求也会变大

或者切断

如果空间不足,RM不会报错,可能会有貌似正确的结果

如果用了WU-BLAST,最好用-s

短序列(<2kb)的可能精确度差一点

转座子transposon

一类DNA序列,它们能够在基因组中转录或逆转录,在内切酶的作用下,在其他基因座上出现。I型转座子即反转录转座子,该型转座子会先被转录为RNA,然后利用逆转录酶将该RNA逆转录为cDNA,然后才被插入到目标位点中。“复制-粘贴”。II型转座子也称不复制转座子,其序列两端是两段直接重复序列(direct repeat, dR),与它们接壤的是反向重复序列(invert repeat, iR),中间是插入序列(insert sequence, IS)。所以II型的中间体就是其本身,“剪切-粘贴”。

假基因是一类本来正常,然后因为突变或转座而可能失去原来功能的基因。在环境压力下,某些假基因可以重新被激活,而某些假基因则有着调控基因表达的作用。可总结为“假作真时真亦假”。它们与原来的基因可能很相似,但又可以有很大差异。

人体约有40%的DNA与逆转录病毒有关,其中7.7%的DNA与逆转录病毒非常相似,称之为内源逆转录病毒(endogenous retrovirus, ERV)。

病毒两端有两条相同的序列,LTR(long terminal repear),LTR不编码蛋白,主要起调控作用。中间三段基因,gag编码了衣壳蛋白等结构蛋白,pol编码了逆转录酶、整合酶、蛋白酶这些病毒复制需要的酶,env编码了病毒包膜的糖蛋白。所有的逆转录病毒都有这三个基因。人类的内源逆转录病毒HERV也有这三段基因和两个LTR,也可以像逆转录病毒一样,逆转录到别处。HERV可能是很久之前感染过人体胚胎,然后逐渐扩增到7.7%的规模,但是已经变异失去了制造病毒颗粒的能力。

逆转录转座子retrotransposon不包含env,可能是逆转录病毒的来源。所有反转录转座子都有一个共同特点,就是在其插入位点上产生短的正向重复序列。它是许多真核生物中数量最大的一类可活动遗传成分。在植物中特别丰富,它们是核DNA的一个主要组成部分。哺乳动物中,几乎有一半的基因组包含转座子或残余转座子。

LINE中有编码与逆转录酶/整合酶相似活性的酶,所以可能也能逆转录;长度6K

SINE中则没有编码逆转录酶,(需要在细胞内已有的酶系统的作用下进行转座)可能是在LINE辅助下进行逆转录和整合的。Alu是属于SINE的。长度约300bp

近年的研究显示,灵长目LTR逆转座子已固定在基因组中,已无转座活性(Lander et al.,2001);灵长目动物基因组中仍有转座活性的元件是non-LTR逆转座子,主要包括长散在重复元件LINE1(long interspersed element 1,L1)、Alu元件、SVA元件等

L1是人类基因组中唯一的自主性逆转座子,其拷贝占17%,但只有极少数有转座活性,其中6个活性最高的L1拷贝介导了大部分L1转座活动。

Alu元件不能编码逆转录酶,属于非自主转座子,它们利用L1编码ORF2的逆转录酶进行逆转座活动。属于SINE。是灵长类动物基因组中数量最丰富的逆转座子。

典型的SVA元件长约2 kb。SVA逆转座子起源最晚,是人科动物中特有的逆转座子,属于SINE家族中的一员。

逆转座子对基因组结构的影响来源有两种,一是逆转座过程本身,一是其产生的同源序列:

逆转座过程对基因组结构的影响:

1.插入突变

逆转座子对插入位点有选择性

2.侧翼序列转导

转座时,除了对自身进行转录,有时也会将上下游的侧翼序列进行转录。侧翼序列转导可将本来不连锁的基因连接起来,对新基因的形成和基因组的进化都有着重要作用。

3.基因逆转座

基因逆转座(gene retrotranspositon)是指只有基因序列发生逆转座,而不伴随逆转座子的转座过程。有时候,一些mRNA可以采取和Alu、SVA相同的策略,捕获L1的逆转录元件从而逆转录插入到基因组中。复制到新位点的基因来源于mRNA的逆转录,因此并不含有上游调控区域,除非获得新的调控区域,这些基因即成为逆转座的假基因(retropseudogene)

4.DNA双链断裂

5.侧翼序列切除

当L1和Alu插入基因组新位点时,可能会引起邻近基因组序列的缺失。

逆转座子同源序列对基因组结构的影响:

1.DNA双链断裂的修复

2.异常重组

3.微卫星的形成

微卫星(microsatellite)也叫短串联重复序列(short t and em repeat,STR)或简单重复序列,是由几个(多为2~4个)碱基对作为核心单位,串联重复形成的一类DNA序列。

ucsc的repeat数据,其分类如下面链接所示

https://blog.csdn.net/tanzuozhev/article/details/80958785

(0)

相关推荐

  • 反(逆)转录病毒载体是什么?

    分类 泡沫病毒类 慢病毒类致癌病毒类 结构组成及表达元件 从5'端开始依次是:①5'长末端重复序列(5'-LTR),带有增强子和启动子序列:②psi序列,又称ψ序列,是病毒包装所必须的信号序列:③ga ...

  • 实验发现 新冠病毒可把自身片段逆转录进我们的基因

    majer @ 2021.05.13 , 12:51 人类的基因组是一个大坟场,里面到处都是曾经困扰我们祖先的病毒的基因片段.如果麻省理工学院研究人员的最新研究经受住了质疑,那么新冠病毒很可能也会加入 ...

  • Science重磅:张锋领衔开发全新mRNA递送平台SEND,开辟分子疗法递送新方法 ​

    撰文:朱哼哼 编审:王新凯 排版:李雪薇 2020 年初,新冠疫情肆虐全球,各国药企均大力投入疫苗研发,希望及时研发出有效疫苗以阻止疫情扩散,这也让原本还远离大众视线的 RNA 疗法,广为人知. 相比 ...

  • 土壤宏病毒组的研究方法与进展

    导     读 土壤是病毒遗传多样性的储存库,但由于土壤自身特性及技术手段的限制,基于传统培养方法对土壤病毒的研究及功能认知存在局限性.宏病毒组学技术能直接从土壤环境样品中获取病毒基因组,随后通过高通 ...

  • Piggybac转座子载体是什么?

    在我们研究某种疾病的发病机制或者某种药物的作用靶点时,经常需要建立目的基因过表达或基因敲除的细胞模型,目前构建稳转细胞株及部分敲除细胞株最常用的方式之一是慢病毒法,慢病毒因其可以转染几乎所有种类的细胞 ...

  • 前沿 | 张锋团队再发《科学》,有望推动基因组编辑技术的下一次革命

    ▎药明康德内容团队编辑 当地时间9月9日,顶尖学术期刊<科学>杂志上线了基因编辑领域知名学者张锋教授领衔发表的一篇最新论文.这也是短短一个月时间内,张锋教授团队在基因疗法领域做出潜在颠覆性 ...

  • 哺乳动物基因表达Tol2载体是什么?

    Tol2载体系统能高效地将外源DNA插入宿主细胞基因组中.该系统技术简单,利用质粒转染(非病毒转导)将目的基因永久整合到宿主基因组中. 该系统来源于Tol2转座子,它最初是从硬骨鱼青鳉鱼(Oryzia ...

  • “垃圾DNA”的概念过时了吗?

    人类基因组(单倍体)DNA 中约有 32亿个碱基对,但其中只有约 2% 编码蛋白质.其余部分似乎毫无意义,大量的重复序列和基因组死角通常被称为"垃圾 DNA"(Junk DNA). ...

  • 【研究成果】确定菊属模型系统的高精度全基因组碱基序列~用于栽培菊花品种培育中的基因组信息的活用~

    本研究成果的要点 成功获取了与栽培菊花(六倍体( *1) )性质非常相似的原产于日本的二倍体品种北野菊纯系化系统( Gojo-0 )的高精度全基因组碱基序列. 菊苣的全部基因组较大,为3.15Gb,但 ...

  • 不想再用慢病毒了,我还有什么别的选择吗?piggyBac transposon

    慢病毒可快速.高效的将目的基因整合到宿主细胞基因组,非常适合用于构建稳转细胞株.但慢病毒也有缺点,即使是稳转细胞株,可能会随着传代次数的增加而慢慢丢失干扰或者过表达的效率.其中可能是原因是在多克隆稳转 ...

  • 转座子介导是什么?

    "转座子"也称"跳跃基因",是普遍存在于各种生命细胞内的遗传因子,由美国科学家芭拉拉·麦克林托克在研究玉米颗粒颜色时发现.许多真核生物(线虫.昆虫,以及植物)基 ...