RNA-seq数据分析最佳策略 / 开普饭

转录组测序技术 (RNA-seq) 具有广泛的应用，RNA-seq数据分析主要步骤包括实验设计，质量控制，reads比对，基因和转录水平的定量，差异基因表达，可变剪接，功能分析，基因融合检测和eQTL定位等。

对于RNA-seq的不同分析方案，可根据研究目标生物及其研究目标进行设计。例如，如果基因组已知，则应该可以通过将RNA-seq reads比对到基因组上来鉴定转录本。相比之下，对于基因组未知，首先通过De novo将reads拼接成contigs，然后将contigs比对到转录组上来。对于注释良好的基因组，如人类基因组，会基于现有注释参考转录组分析RNA-seq数据。

1.实验设计

成功进行RNA-seq研究的先决条件是转录组数据能回答感兴趣的生物学问题。首先选择适合于研究生物的文库类型，测序深度和样品重复数，其次确保测序数据不受污染。

首先，选择富集mRNA方法。总RNA中存在大量的rRNA，通常占总RNA的90%，mRNA为1-2%。对于真核生物，使用poly(A)富集mRNA或减少rRNA的方法进行mRNA富集。但使用poly(A)富集通常需要较高比例的mRNA和较高RNA intergrity number (RIN)的样品。然而，许多生物学相关的样品没有足够的量或足够好的mRNA完整性以产生良好的poly(A) RNA-seq文库，因此通常选择减少rRNA来达到富集mRNA。另一个问题是是否生成strand-preserving libraries。RNA-seq使用random hexamer priming逆转录poly(A)富集mRNA。该方法不保留实际表达的DNA链上包含的信息，因此使后续分析复杂化。而广泛使用的dUTP方法，通过在第二条cDNA合成时加入UTP，加接头后用UDGase处理，将含有U的第二条cDNA降解掉。最终片段的大小对于测序和后续分析至关重要。此外，测序分为单端测序（single end，SE）或双端测序（paired-end，PE），较短read和SE read用于研究注释良好的生物中基因表达水平，而较长read和PE read用于研究注释不良的转录组。

其次，选择测序深度和文库大小。随着样本测序深度的增加，得到的转录组信息更加详细及转录本数量更多。然而，测序深度不是越大越好。在大多数真核转录组中，500万个mapped reads能精确定量中到高表达基因，1亿个mapped reads能精确定量低表达水平的基因和转录本。当研究单细胞转录组时，用一百万个reads进行定量，但对于高度表达的基因只要50,000个reads进行定量，甚至20,000个reads可用于区分脾组织中的细胞类型。文库大小取决于目标转录组的复杂性。

最后，样品重复数。RNA-seq实验中的重复数量取决于RNA-seq中研究生物特性和实验程序，以及实验组之间基因表达显著差异的能力。良好的实验设计与避免实验偏差同样重要，特别是当实验涉及需要分批处理的大量样品时。在这种情况下，设置对照、样品处理和测序管理，对于获得无污染数据至关重要（图1a）。

图1 RNA-seq计算分析的通用路线图。主要分析步骤列在预分析，核心分析和高级分析。文本中讨论了行下面列出的每个步骤的关键分析问题。 a预处理包括实验设计，测序设计和质量控制步骤。 b核心分析包括转录组分析，差异基因表达，和功能分析。 c高级分析包括可视化，其他RNA-seq技术和数据集成。缩写：ChIP-seq染色质免疫沉淀测序，eQTL表达定量基因座，FPKM片段每千碱基外显子模型每百万映射读数，GSEA基因集富集分析，PCA主成分分析，RPKMreads每千碱基外显子模型每百万读数，sQTL剪接数量性状基因座，TF转录因子，TPM每百万转录本

2. RNA-seq数据分析

RNA-seq数据分析主要步骤：质量控制，有参基因组及无参基因组的reads比对，基因和转录本的表达，以及检测差异基因表达的方法。还讨论可变剪接，转录本融合，small RNA表达和可视化工具等。

2.1质量控制检测

RNA-seq数据获取包括几个步骤：（1）获得raw reads（2）reads比对和（3）定量。在每个步骤中，都应进行质量控制检测（图1a）。

2.1.1 raw reads

raw reads的质量控制包括序列质量，GC含量，是否有接头，过高k-mers和重复reads分析。在同一实验中的样品，不一致性大于30%则剔除。 FastQC是一种在Illumina reads上进行这些分析的流行工具，而NGSQC可以应用于任何平台。

3’末端序列质量下降时需要删除以增加比对率。诸如FASTX-Toolkit和Trimmomatic等软件工具用于去除低质量reads，去除接头，去除低质量碱基。

2.1.2 reads比对

reads通常比对到基因组或转录组，最重要的是比对到基因组或转录组上的比对率。例如，期望70％到90％的RNA-seq reads比对到人类基因组上。当有多个序列比对在有限的序列区称之为多重比对reads（multi-mapping reads）。当reads比对到转录组时，期望比对率较低，因为未注释的转录本会被过滤，且同一个基因不同亚型的共有外显子区导致多重比对reads增加。

其他重要参数是序列覆盖度在外显子和比对链上的均一性。如果reads主要在poly(A)富集的样品中3'末端转录本聚集，表明样品RNA质量低。GC含量可揭示PCR偏好性。比对的质量控制工具包括Picard，RSeQC和Qualimap。

2.1.3定量

转录本定量后需检测GC含量和基因长度偏好性，来决定是否需要校正。如果参考转录组得到很好的注释，表明RNA纯化质量高。许多R语言包（例如NOISeq或EDASeq）对定量步骤进行质量控制。

2.1.4重复

检查重复样品之间的可重复性评估对RNA-seq质量也是至关重要。实验重复之间的重复性较高 (Spearman R2> 0.9) ，但生物重复没有明确的标准，取决于实验需求。如果同一实验处理间存在基因表达差异，则应通过主成分分析 (principle component analysis，PCA) 聚在一起。

2.2转录本识别

当有参分析时，RNA-seq分析通常涉及将reads比对到参考基因组或转录组以推断表达转录本。但比对到转录组上会屏蔽新的未注释的转录本，只对已知转录本进行定量分析。相反，当无参分析时，先将reads组装成长contigs，然后将contigs作为表达转录组将reads比对以进行定量分析。或者read coverage可用于对转录本进行定量(图1b)，区别在于转录和定量同时完成还是依次完成。

2.2.1比对

当有参比对时，分为基因组比对或到注释转录组比对（图2a，b）。无论是基因组还是转录组，都会出现唯一比对read (Unique match read) 或者多重比对read(multi-mapping read)。多重比对read是由于重复序列或是有共同结构域的旁系同源基因而导致。当参考是转录组时，多重比对read数量更多，因为在基因组上唯一比对的reads可能会比对转录组同一个基因不同亚型的共有外显子区。

图2 read mapping和转录本识别方法。常规RNA-seq分析的三种基本方法。a可以使用带注释的基因组，并使用带有gapped mappper将reads比对到基因组。下一个转录本发现和定量可以在有或没有注释文件的情况下进行。然后在功能上注释新的转录本。b如果不需要新的转录本发现，可以使用ungapped aligner将reads比对到参考转录组。转录物鉴定和定量可以同时发生。c当没有可用的基因组时，需要首先reads组装成contigs或转录本。为了定量，将reads比对回新的参考转录组，并且如（b）中进行进一步分析，然后如（a）中那样对新转录物进行功能注释。每个分析步骤中使用的软件以粗体文本表示。

2.2.2新转录本发现

Illumina reads长度短，很难跨越几个剪接位点，因此不能直接推断出转录本全长。此外，转录本起始位点和终止位点较难确定。GRIT等工具结合其他数据将通过CAGE或RAMPAGE得到5'末端主要表达的异构体进行正确的注释。PE reads和高覆盖率有利于低表达转录本的发现，样品重复有利于解决假阳性率（false-positive call）。几种方法，如Cufflinks，iReckon，SLIDE和StringTie，将异构体与注释相结合。 Montebello基于likelihoodbased Monte Carlo算法将异构体发现和定量结合起来。Augustus结合RNA-seq数据来更好地注释蛋白质编码转录本，但在非编码转录本上表现更差。一般而言，从短reads中重建准确的转录本是比较困难的。

2.2.3从头组装转录本

当参考基因组不可用或不完整时，RNA-seq reads可以使用诸如SOAPdenovoTrans，Oases，Trans-ABySS或Trinity等软件包从头组装成转录组（图2c）。一般而言，PE reads和长reads是优先选择的，因为它们提供更多信息。低表达的转录本缺乏足够的覆盖率以进行组装，但其大量的reads会导致错误组装和增加运行时间。因此，对于深度测序的样品，通过计算机 (in silico) 减少reads。对于样品间比较分析，建议将来自多个样品的所有reads组合以获得合并的contigs或转录本，然后比对短reads进行表达量评估。

从头组装会产生数十或数百个contigs，导致转录本碎片化。长测序技术，如Bioscience的SMRT，提供的reads可以为大多数基因提供完整转录本。

2.3转录定量

RNA-seq最常见分析是基因和转录本定量表达，基于比对到转录本上的reads数量计算基因表达量。尽管有些算法如Sailfish依赖于reads中的k-mer计数而无需比对。最简单的定量方法是使用HTSeq-count或featureCounts等程序累积reads的原始数量。基因水平定量方法是使用含有外显子和基因的基因组坐标的基因转移格式 (genome transfer format，GTF) 。单独的原始reads数量不足以比较样品中的表达水平，受如转录本长度，reads总数和测序偏差等因素的影响。测量RPKM (reads per kilobases of exon model per millions reads) 是样本内标准化方法，将消除长度和样品大小影响。FPKM（fragmentsper kilobase of exon model per million mapped read），类似于RPKs的样品内标准化转录本表达测量，以及TPM (ranscripts per million) 是最用的测量RNA-seq基因表达值。应该注意的是，RPKM和FPKM对于SE reads是等效的，并且可以将FPKM转换为TPM。当比较样品中相同基因表达的变化时，不需要校正基因长度，但是必须对样品中的基因表达水平进行排序，以解释较长基因需积累更多reads。此外，从数据中预测基因长度的Cufflinks等程序可以发现样本之间基因长度的显著差异。TPM有效标准化tran文件中的组成差异，在不同来源和组成的样本之间更具可比性，但仍有部分偏差，必须使用TMM等标准化技术解决这些问题。

几种复杂的算法来预测转录本水平表达。Cufflinks从基因组中比对中预测转录本表达，就像TopHat用最大期望值来预测转录本表达。该方法考虑了如基因长度的非均匀reads分布的偏差。Cufflinks利用PE reads和GTF信息来识别表达的转录本或从比对数据推断转录本。从转录本比对定量表达包括RSEM (RNA-Seq by Expectation Maximization) ，eXpress ，Sailfish 和kallisto等。转录本中多重比对reads以及将序列偏好性矫正后样本内标准化输出。此外，RSEM使用最大期望值并返回TPM值。NURD为SE reads提供转录组表达评估，低内存和计算成本。

2.4差异基因表达分析

差异表达分析（图1b）需要将样本之间的基因表达值进行比较。 RPKM，FPKM和TPM标准化了比较样品测序深度，无论是直接计算还是通过计算转录本的数量，这些样本之间可能存在显著差异。这些方法基于总计数或有效计数的标准化方法，并且当样本具有杂合性转录本结果较差，即当高度和差异表达的特征可能使count分布偏差。考虑到这一点的标准化方法是TMM，DESeq，PoissonSeq和UpperQuartile。NOISeq识别RNA-seq数据中的偏差来源，并在每种情况下应用适当的标准化程序。最后，尽管这些特定样本的标准化方法，但数据中仍可能存在批次效应。批次效应可以通过适当的实验设计来减少，或者通过批量校正方法如COMBAT或ARSyN来消除。

由于RNA-seq定量基于reads counts匹配到转录本，因此计算差异表达的使用离散概率分布，例如泊松或负二项。然而，只考虑少量reads的采样方差，就不需要使用离散分布来精确分析差异表达。此外，经过标准化（包括TMM和批量校正）后，数据可能已失去其离散性质，更类似于连续分布。

edgeR将原始输入reads计数及可能的偏好性带入数据模型，将标准化和差异分析同时进行，类似的为DESeq2（负二项分布）。baySeq和EBSeq为贝叶斯法（负二项分布），不同实验组内的差异以及每组内每个基因的后验概率。无参数法方法，NOISeq或SAMseq做最小假设，从真实数据中为理论分析做空值分布估算。最小生物学重复为3。不同算法显著性的影响分析的结果，因此要表明参数设置，版本，以及考虑生物学重复。

2.5可变剪切分析

同一基因转录本异构体的表达为可变剪接，分析方法分为两大类。第一种方法将异构体表达预测与差异表达的检测相结合，以揭示基因表达中每种异构体的比例的变化。另一种方法，BASIS，使用hierarchical Bayesian model直接推断差异表达的转录本异构体。CuffDiff2首先预测异构体表达，然后比较它们的差异。通过整合这两个步骤，在进行统计分析以寻找差异异构体表达时，将第一步的不确定性考虑在内。Flow difference metric (FDM)使用外显子reads和两个外显子接合区的reads (junction reads) 的转录本来推断异构体，并使用Jensen-Shannon来测量差异。最近，Shi和Jiang提出了一种新的方法rSeqDiff，它使用hierarchical likelihood ratio test来检测差异基因表达，同时不进行剪接变化和差异异构体表达。

基于外显子分析 (exon-based) 忽略异构体表达的并通过比较样品间基因的外显子和连接处的reads分布来检测可变剪接的信号。该方法基于以下前提：可以在外显子及其连接的信号中跟踪异构体表达的差异。DEXseq和DSGSeq采用类似的方法，通过测试基因外显子（和连接点）reads计数的显著差异来检测差异剪接基因。 rMATS通过比较连接点reads定义的外显子水平来检测差异剪接基因。rDiff通过比较基因替代区域reads来检测差差异剪接基因。DiffSplice使用对比图发现可变剪接模型(ASM)，并使用ASM的信号识别可变剪切。exon或junction法可精准的发现单个可变剪接；exon-based适合特殊的外显子和功能结构域，不适合整个异构体分析。

2.6可视化工具

一般而言，RNA-seq数据的可视化（图1c）与任何其他类型的基因组测序数据相似，并且可以reads水平上进行（例如，使用ReadXplorer）或使用基因组浏览器，如UCSC浏览器，integrative Genomics Viewer (IGV)，Genome Maps，或Savant。一些可视化工具专门用于可视化多个RNA-seq样本，例如RNAseq Viewer，它提供显示外显子，转录本和连接点的reads的功能。还可以隐藏内含子以更好地显示外显子上的信号，并且可以比较多个样本上的信号。但RNAseq Viewer比IGV速度慢。

用于差异基因表达分析的一些软件包（例如Bioconductor中的DESeq2或DEXseq）具有实现结果可视化的功能，而其他软件包用于可视化专用目的，例如CummeRbund（用于CuffDiff）或Sashimi plots，可用于可视化差异拼接的外显子。Sashimiplots的优点在于，当样本数量较少时，它们的连接点reads显示更直观，美观。可以使用SplicePlot 获得用于剪接数量性状基因座 (sQTL) 的Sashimi，structure和hive plots。可以使用SpliceSeq 生成剪接图，Splicing Viewer绘制剪接点和可变剪接事件。TraV是一种集成数据分析的可视化工具，但其分析方法不适用于大型基因组。

2.7基因融合发现

染色体重排产生融合基因与异构体基因鉴定方法类似，但跨度更大。假的融合基因主要源于由于多态性，同源性和测序错误导致reads错位。同源基因家族和高度多态性基因（例如HLA基因）产生reads不易比对到参考基因组中位置。对于具有非常高表达的基因，RNA-seq测序错误将产生错误比对到同源配对基因的reads。建议过滤高度多态性基因和同源配对基因。还建议过滤不太可能参与基因融合的高表达基因，如核糖体RNA。最后，在融合边界的嵌合体与野生型reads的低比率，可能表明来自高表达基因的reads假错误定位。

2.8 Small RNAs

sRNA的长度通常为18-34个核苷酸，它们包括miRNA，短干扰RNA (siRNA)，PIWI交互RNAs (PIWI-interacting RNA，piRNAs)和其他类型的调节分子。由于缺乏复杂性，sRNA-seq文库很少像常规RNA-seq文库那样进行测序，测序通常为2-10百万个reads。 sRNA-seq数据的生物信息学分析不同于标准RNA-seq方案（图1c）。首先去除接头序列，并计算得到reads长度分布。在动物中，通常存在22和23个核苷酸reads，而在植物中存在21和24个核苷酸reads。例如，用于预测和分析sRNA种类的工具miRTools 2.0，默认使用长度为18-30个核苷酸的reads。在miRNA的情况下通常为19-25个核苷酸reads。

与标准RNA-seq一样，sRNA reads必须使用标准工具与参考基因组或转录组序列比对，如Bowtie2，STAR或Burrows-Wheeler Aligner（BWA）。然而，有一些比对软件（例如PatMaN和MicroRazerS）被设计用于比对具有预设参数值范围的短reads，该预设参数值范围适合于短reads的最佳比对。在miRNA的情况下，通常允许每个基因组5-20个不同的比对，然后简单地计数sRNA reads获得数值。

进一步的分析步骤包括与已知的sRNA的比较。有用于此目的的特定类工具，例如分别用于动物和植物miRNA的miRDeep和miRDeep-P，或用于UEA sRNA Workbench的反式作用siRNA预测工具。 miRTools 2.0，ShortStack和iMir等工具也可用于全面注释sRNA文库和鉴定不同类型的sRNA。

2.9使用RNA-seq进行功能分析

标准转录组学研究的最后一步（图1b）是差异表达基因 (DEGs) 的功能和通路分析。首先为微阵列技术开发的功能特征的两种主要方法是 (a) 比较差异表达基因与剩余基因组，以及 (b) 基因富集分析 (gene set enrichment analysis，GSEA) ，基于差异表达转录本排序。 RNA-seq偏好性如基因长度，使这些方法直接应用于数据变得复杂，因此已经提出了RNAseq特异性工具。例如，Goseq预测差异表达结果的偏差效应（如基因长度）。同样，基因集变异分析 (Gene Set Variation Analysis ，GSVA) 或SeqGSEA包也结合了类似于GSEA的剪接和富集分析。

功能分析需要为研究中的转录组提供足够的功能注释数据。诸如Gene Ontology，Bioconductor，DAVID或Babelomics等包含大多数模型物种的注释数据。然而，从头组装转录组或发现的新转录本将缺少一些功能信息，因此注释对于那些结果的功能分析是必需的。蛋白质编码转录本可以通过在蛋白质数据库（如SwissProt）和含有保守蛋白结构域的数据库（如Pfam和InterPro）中搜索相似序列，使用直系同源进行功能注释。如Blast2GO之类的工具允许针对各种数据库对完整的转录组数据集进行大量注释。通常，从RNA-seq数据重建的50-80％的转录本可以用这种方式进行注释。然而，RNA-seq数据还显示转录组的一个重要部分缺乏蛋白质编码潜力，如非编码RNA。这些长的非编码RNA的功能注释更具挑战性，因为它们的保守性通常不如蛋白质编码基因的保守性高。Rfam数据库包括最大的RNA家族，如核糖体或转移RNA，而mirBase或Miranda专门研究miRNA。这些资源可以用于短非编码RNA基于相似性的注释，但是对于其他RNA类型（例如长的非编码RNA），目前还没有标准功能注释程序可用。

3.与其他数据类型结合

RNA-seq数据与其他类型数据的结合（图1c），使我们能够将基因表达的调控与分子生理学和功能基因组学的特定方面联系起来。

3.1DNA测序

RNA和DNA测序的组合可用于多种目的，例如单核苷酸多态性（SNP）发现，RNA编辑或表达数量性状基因座 (eQTL) 作图。在典型的eQTL实验中，在相对大量的个体 (> 50) 中从相同的组织类型获得基因型和转录组谱，然后检测基因型和表达水平之间的相关性。这些关联可以揭示复杂性状的遗传基础，如身高，疾病易感性甚至是基因组结构的特征。大量eQTL研究表明，遗传变异会影响大多数基因的表达。

RNA-seq在检测eQTL具有两个主要优势。首先，它可以识别影响转录本处理的变异。其次，杂合性SNP的reads可以比对到母本和父本染色体，从而能够定量个体内的等位基因特异性表达。

3.2DNA甲基化

DNA甲基化和RNA-seq整合，大多数情况下，包括分析DEGs和甲基化模式之间的相关性。在其他建模方法中，已经尝试了一般线性模型，逻辑回归模型和贝叶斯模型。然而，得出DEGs和甲基化的相关性较低。基于网络相互作用的方法来分析与DNA甲基化相关的RNA-seq。该方法鉴定了一组或多组差异表达和差异甲基化的基因。

3.3染色质功能

RNA-seq和转录元件（transcriptionfactor，TF）染色质免疫沉淀测序（ChIPseq）数据的组合可用于去除ChIPseq分析中的假阳性并且表明TF对其目标基因的激活或抑制作用。例如，BETA将差异表达基因与来自ChIP-seq称为TF目标。其他RNA-ChIP测序综合方法在中进行了描述：将来自FAIRE-seq和DNase-seq的开放染色质数据与RNA-seq验证基因的表达状态；DNase-seq可用于DNA结合因子的全基因组足迹。

3.4小分子RNA

RNA-seq和miRNA-seq数据的整合有可能揭示miRNA对转录本稳态水平的调节作用。因为miRNA目标预测非常困难，这阻碍基于miRNA与其目标基因之间相关性的分析。可以在mirWalk和miRBase的数据库中找到关联，其根据各种算法提供预测。诸如CORNA，MMIA，MAGIA和SePIA等工具通过检测基因，miRNA，pathways和GO terms之间的重要关联，或通过检测相关性或反相关性来改进预测能力。

3.5蛋白质组学和代谢组学

RNA-seq与蛋白质组学的整合是有争议的，因为这两个测量显示通常较低的相关性（~0.40）。然而，蛋白质组学和RNA-seq的成对整合可用于鉴定新的异构体，可以从RNA-seq数据预测未知肽。此外，如果在RNA-seq数据集的表达基因中不存在质谱分析中存在的肽，则可以肯定为翻译后编辑。转录组学与代谢组学数据的整合已被用于鉴定在基因表达和代谢物水平上受到调节的通路，并且可通过工具获得该通路可视化结果（如MassTRIX，Paintomics，VANTED v2和SteinerNet）。

3.6多种数据类型的集成和可视化

两种以上基因组数据类型的整合仍处于起步阶段，尚未广泛应用于功能性测序技术，但已有一些工具结合了多种数据类型。 SNMNMF和PIMiM将mRNA和miRNA表达数据与蛋白质-蛋白质，DNA-蛋白质和miRNA-mRNA相互作用网络结合，以鉴定miRNA-基因调控模块。MONA结合了不同水平的功能基因组学数据，包括mRNA，miRNA，DNA甲基化和蛋白质组学数据，以发现所研究样品中改变的生物学功能。Paintomics可以将任何类型的功能基因组学数据整合到通路分析中。3Omics将转录组学，代谢组学和蛋白质组学数据整合到网络中。

4.展望

RNA-seq已成为转录组分析的标准方法，但技术和工具正在不断发展。应该注意的是，从不同工具获得的结果之间的一致性较差，特别是对于低水平表达基因。目前RNA-seq应用的两个主要亮点是从少量样品材料构建转录组，并从较长reads中获得更好的转录本。

4.1单细胞RNA-seq

单细胞RNA-seq (scRNA-seq) 是RNA-seq最新的领域之一。如Smart-seq和Smart-seq2只需极少量的样品材料，可通过单个细胞的扩增得到RNA-seq。由此产生的单细胞文库可以识别组织中新的，未表征的细胞类型。在特定人群中的其他相同细胞中基因表达的随机性。在这种情况下，单细胞研究仅在单个细胞文库与细胞群体进行比较时才有意义，目的是鉴定具有表达基因的多细胞亚群。差异可能是由于天然存在的因素，例如细胞周期的阶段，或可能反映罕见的细胞类型，如癌症干细胞。

少量的样品材料和PCR扩增限制了单细胞文库测序深度，通常低于一百万次reads。由于细胞中单个mRNA分子的数量很少（大约100-300,000个转录本），因此scRNA-seq的更深层次测序对定量几乎没有作用，只有一小部分成功地逆转录为cDNA，但测序深度增加有利于发现和测量等位基因特异性表达。

单细胞转录组通常包括约3000-8000个表达基因。加入参考转录本以及特异性分子标记（uniqe molecule identifiers，UMI）有利于克服偏好性扩增并提高基因定量。质量控制步骤涉及（1）少量reads的文库，（2）具有低定位率的文库，（3）以及预期以可检测水平表达的管家基因（例如GAPDH和ACTB）具有零表达水平的文库。

通常比对到参考转录组（如RSEM的程序）来分析单细胞文库。尽管至少一个比对到基因组（Monocle），可以得到更高的总reads比对率，但是为了简单起见，倾向于比对到参考转录组。已经开发了其他单细胞方法来使用ATAC-seq测量单细胞DNA甲基化和单细胞染色质。目前，我们可以在同一个单细胞中测量一种功能基因组数据类型，但我们可以预期，在不久的将来，我们将能够同时恢复单个细胞的转录组和其他功能数据。

4.2长reads测序

短reads RNA-seq的主要限制是难以从reads组装中精确重建表达的全长转录本。最初应用于基因组测序的长读技术，例如Pacific-Biosciences（PacBio）SMRT和Oxford Nanopore，现在被用于转录组学，并且有可能克服这种组装问题。长读序列提供cDNA，无需组装步骤即可回收全长转录本。 PacBio为cDNA分子添加了接头，并创建了一个环化结构，可以在一次长reads中对多次通过进行测序。 Nanopore GridION系统可以通过使用RNA加工酶和RNA特异性碱基直接测序RNA链。另一项有趣的技术以前称为Moleculo（现为Illumina的TruSeq合成长reads技术），其中Illumina文库制备被限制为有限数量的长DNA分子，这些DNA分子被单独条形码并汇集回来进行测序。由于一个条形码对应于有限数量的分子，因此组装大大简化并且可以明确地重建长contigs。最近发表了这种方法用于RNA-seq分析。

PacBio RNA-seq可用于解开复杂位点的异构体多样性，以及确定单个reads的等位基因特异性表达。然而，长读序列有其自身的一些局限性，例如高错误率限制了从头组装转录本鉴定并迫使该技术利用参考基因组。此外，SMRT细胞的相对低通量阻碍了转录本表达的定量。

原文链接：http://doi.org/10.1186/s13059-016-0881-8

RNA-seq数据分析最佳策略

相关推荐