59匹马的8个组织的长非编码RNA的鉴定
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
标题:Identification of long non-coding RNA in the horse transcriptome
标题:马转录组中长非编码RNA的鉴定
杂志:BMC Genomics( 2017 Jul 4)
通讯作者:C. J. Finno
机构:Department of Population Health and Reproduction, University of California
文章链接:DOI 10.1186/s12864-017-3884-2
摘要:
背景:解析马基因组中转录序列的努力主要集中在蛋白质编码RNA上。虽然通过总RNA测序(RNA-seq)检测到了基因间区的转录,但在马身上还没有确定其特征。最新的基于几种组织RNA-seq的马转录组是获得同时存在的长非编码RNA(LncRNA)数据库的绝佳机会。
结果:该lncRNA数据库有8个组织,每个组织的读数超过20 million,提供了最深、最广的马类lncRNA数据库。利用以前发表的马转录组中的基因间区阅读和三类新基因,我们通过注释候选的lncRNA来更好地描述这些组。使用一种改编自人类lncRNA注释的方法筛选这些候选lncRNA,该方法根据大小、表达、蛋白质编码能力以及到注释蛋白质编码转录本开始或结束的距离来去除转录本。
结论:共鉴定到马lncRNA有20,800个转录本,表现出低表达、低外显子和低序列保守性等lncRNA独有的特征。
关键词:长非编码RNA,马转录组,基因间
材料方法
从59匹马的8个组织小脑、脑干、脊髓、视网膜、骨骼肌、皮肤、胚胎内细胞团(ICM)和滋养外胚层(TE)取样。
肌肉:SRP082284 脑干:SRP073514 脊髓:SRP073514 , SRP082291 小脑:SRP082342 视网膜:ERP001525 胚胎:SRP031504 and SRP082454 皮肤:ERP001524, ERP001525, ERP005568
1.长非编码RNA的鉴定
文中选择了5个输入集,是基于作者之前的研究***Tissue resolved, gene structure refined equine transcriptome***中划分的三类novel转录本 以及位于基因间区的还有NCBI和ensembl中记录的lncRNA有外显子重叠的进行筛选。
support from other equine annotations**(novel I)**
support from orthologous gene models or gene prediction models (novel II)
lacking any support but having a conserved ORF (novel III)
过滤条件:
1.去除低表达转录本;使用TPM 2.去除小于200bp转录本 3.去除具有编码能力的转录本 4.由于马基因组,蛋白质编码基因的UTR注释经常不完整,导致基因片段位于同一链上的基因两侧;所以去除落在任何可能的蛋白质编码基因的上下游1kb以内,并且在同一条链上的转录本。 5.与人lncRNA经过BLASTN比对,同一性超过75%的转录本保留
2.组织特异表达的lncRNA
通过在一个组织中表达至少0.1TPM,在所有其他组织中表达小于0.1TPM来定义LncRNA转录本的特异性。
结果
共计62126个转录本中鉴定到20800个lncRNA;图a 每一个过滤步骤移除的转录本以饼图展示;图b 每个输入集外显子个数
3.lncRNA保守性
相对于人类转录产物,马的LncRNA与其蛋白质编码的对应物相比没有显示出序列保守性。
88%的候选lncRNA转录本没有显著比对。虽然lncRNA的序列保守性很低,但存在位置保守性。有五个lncRNA具有位置保守性。
4.候选lncRNA的组织和文库模式
lncRNA具有组织特异性,作者观察了与组织类型相关的模式以及所使用的的文库制备方法的潜在影响。
其中脊髓、脑干、小脑 去除rRNA建库;肌肉、视网膜和皮肤组织使用polyA捕获;胚胎的组织采用两种。
图a 脊髓、脑干和小脑中编码和非编码转录本最多。另一方面,视网膜、皮肤和肌肉这三个PolyA文库显示的两者数量最少。LncRNA与蛋白质编码转录本的比率在胚胎TE中最高(0.5),在肌肉中最低(0.26)。
图b 组织再次依赖于其文库构建方式聚类。
图c 尽管皮肤中检测到的候选LncRNA数量相对较少,但它有最多的候选LncRNA显示出组织特异性,在检测到的13,750个候选LncRNA中,有110个(0.8%)被认为是唯一存在于皮肤中的。绿色线条表示所有唯一存在的lncRNA的累积TPM,除以5进行缩放。
延伸:对不同组织使用不同的建库方法。需要一个独立变量的设计来单独检测两个因素的影响。
本文使用的代码:https://zenodo.org/record/56934#.YKnz3nniuUk
提供了几乎全部的代码:
看了看,代码略微有点多,并不适合初学者学习,说明作者自己的思路也是有点混乱的。
没有差异分析也没有WGCNA
这个数据还有很多可以挖掘的地方,转录组的标准分析,也就是差异分析居然都是缺席的,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
共表达网络的构建及模块检测文章也没有做,生信技能树多个教程分享WGCNA的实战细节,见:
一文学会WGCNA分析