使用MA Anderson御用软件SpliceSeq对TCGA数据库的RNA-seq找可变剪切
MA Anderson御用软件SpliceSeq已经是发表于2012的文章了:《SpliceSeq: a resource for analysis and visualization of RNA-Seq data on alternative splicing and its functional impacts》
实际上这些年针对RNA-seq找可变剪切的工具软件发展迅速,发表在December 2019的综述:《Systematic evaluation of differential splicing tools for RNA-seq studies》
exon-based (DEXSeq, edgeR, JunctionSeq, limma), isoform-based (cuffdiff2, DiffSplice) event-based methods (dSpliceType, MAJIQ, rMATS, SUPPA).
SpliceSeq产生的可变剪切数据库
其实MA anderson已经使用御用软件SpliceSeq对TCGA数据库的全部的RNA-seq找可变剪切,并且把结果存放在网页工具,供所有人使用:https://bioinformatics.mdanderson.org/TCGASpliceSeq/
你可以很方便的在如何癌症里面查看你感兴趣的基因是否出现在TCGA数据库里面有可变剪切:
而且TCGA数据库的全部癌症的SpliceSeq软件结果数据都是可以下载的,所以催生了33*5篇数据挖掘灌水文章。
当然了,现在也有联合SpliceSeq软件结果与甲基化等其它数据结合起来灌水比如:https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-019-0654-9
下载及安装
文档写的很详细哦,https://bioinformatics.mdanderson.org/public-software/spliceseq/installation/
mkdir -p ~/biosoft/SpliceSeq
cd ~/biosoft/SpliceSeq
wget http://projects.insilico.us.com/SpliceSeq_2.3/SpliceSeq.zip
unzip SpliceSeq.zip
cd SpliceSeq
java -jar SpliceSeq.jar --help
如果仅仅是查看帮助文档,会出现看起来很像是报错的:
No X11 DISPLAY variable was set, but this program performed an operation which requires it.
因为这个java软件是有UI界面的,跟fastqc一样,为了方便那些并不会shell编程的朋友使用它,可以直接鼠标点击即可使用。
软件使用过程也有完善的文档:https://bioinformatics.mdanderson.org/TCGASpliceSeq/faq.jsp
具体细节也很多:https://bioinformatics.mdanderson.org/public-software/spliceseq/methods/
这个软件并不大;
361 Apr 29 2016 DB.properties
2.0K Apr 29 2016 SGAnalyzer.properties
2.4K Apr 29 2016 SGAnalyzerPrograms.properties
4.6M Apr 29 2016 SpliceSeq.jar
498 Apr 29 2016 SpliceSeq.properties
126 Apr 29 2016 SpliceSeq.state.properties
3.9M Nov 3 2016 SpliceSeqAnalyze.jar
1.5K Sep 10 18:40 SpliceViewer.log
65 Nov 3 2016 example
953 Apr 29 2016 log4j.xml
它有两个功能
浏览器功能( SpliceSeq Viewer to Access the SpliceSeq DB)
这个通常是用不上的,因为我们可以直接在网页工具体验即可:https://bioinformatics.mdanderson.org/TCGASpliceSeq/
主要是还需要操作MySQL,这个东西对大部分生信工程师来说,都很难。
SpliceSeq Analyzer
需要配套的bowtie软件,如果是界面版本软件运行就比较简单
同样的需要读文档:https://bioinformatics.mdanderson.org/public-software/spliceseq/dataloading/
如果是命令行就复杂一点:
其实就是软件自带的 example 文件夹下面的两个配置文件需要修改啦。当然啦,作者本身其实推荐使用界面版本软件,方便配置。
结果解释
因为软件太古老,不想运行了,所以暂不解释。其实还是推荐其它软件工具哦,比如我前几年写过的教程:
用Expedition来分析单细胞转录组数据的可变剪切 使用SGSeq探索可变剪切 用DEXSeq分析可变剪切,外显子差异表达 rMATS这款差异可变剪切分析软件的使用体验 用LeafCutter探索转录组数据的可变剪切 100篇泛癌研究文献解读之可变剪切事件大起底
更多资源
MA Anderson出品的其它软件:https://bioinformatics.mdanderson.org/public-software/
MA Anderson维护的TCGA数据库资源库:https://bioinformatics.mdanderson.org/StandardizedDataBrowser/