scRNA-seq原始数据的处理
书籍翻译
好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯;分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者。
希望大家能有所收获!
正
文
处理原始scRNA-seq数据
3.1
FastQC
获得单细胞RNA-seq数据后,首先要做的就是检查已测序的读数的质量。对于此任务,今天我们将使用名为FastQC的工具。FastQC是一种用于测序数据的质量控制工具,可用于bulk和单细胞RNA-seq数据。FastQC将测序数据作为输入,并返回有关读取质量的报告。将此链接复制并粘贴到您的浏览器中以访问FastQC网站:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
该网站包含下载和安装FastQC的链接以及所生成报告的文档。幸运的是,我们今天已经为您安装了FastQC,因此我们将查看文档。将网页向下滚动到“示例报告”,然后单击“良好的Illumina数据”。这给出了一个对于高质量Illumina的reads数据来说,理想的报告应该是什么样的例子。
现在让我们自己制作一份FastQC报告。
今天,我们将使用由(Kolodziejczyk等人,2015)生成的mESC数据集中的单个细胞进行分析。使用SMART-seq2文库制备方案对细胞进行测序,并对reads进行配对。文件位于Share
。
注意:本课程的当前文本是为AWS服务器编写的,适用于亲自参加我们课程的人员。您必须自己下载文件(ERR522959_1.fastq
和ERR522959_2.fastq
)并创建Share
目录才能运行命令。你可以在这里找到这些文件:
https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-2600/samples/
现在让我们来看看文件:
less Share/ERR522959_1.fastq
less Share/ERR522959_2.fastq
任务1:尝试找出用于生成FastQC报告的命令。
提示:尝试执行
fastqc -h
此命令将告诉您可以执行FastQC的参数。如果你遇到困难,请随时寻求帮助!如果成功,则应为生成.zip和.html文件,分别对应于forwards和backwards配对的reads文件。一旦你成功了,可以到下一节。
3.1.1 解决方法并下载报告
如果您还没有这样做,请使用以下命令生成FastQC报告:
mkdir fastqc_results
fastqc -o fastqc_results Share/ERR522959_1.fastq Share/ERR522959_2.fastq
一旦命令执行完毕,您应该总共有四个文件 - 每个配对的reads的一个zip文件,以及每个reads的配对的一个html文件。该报告位于html文件中。如果要查看它,我们需要使用filezilla或scp将它从AWS上移到您的计算机上。
文件在您的计算机上后,点击它就可以打开您的FastQC报告。浏览一下文件。记得forwards和backwards匹配reads报告都要查看!读取的质量如何?有什么我们应该关注的吗?我们如何解决这些问题呢?
3.2
trim reads
幸运的是,有可用于trim reads的软件。今天我们将使用Trim Galore!Trim Galore是一个trim reads的软件包。
read trim软件可用于修整测序adapters 和/或读取末端的低质量reads。鉴于我们注意到FastQC报告中存在一些adapters污染,最好从我们的数据中trim掉adapters。
任务2:我们的数据中使用了哪种类型的adapters?提示:查看FastQC报告“adapters content”图。
现在让我们尝试使用Trim Galore!删除那些有问题的adapters。trim后再次检查读取质量,因此在trim完读数后,应使用FastQC生成另一个报告。
任务3:找出应该用来从我们的数据中trim adapters的命令。提示1:你可以使用
trim_galore -h
要了解哪些参数可以传递给Trim Galore。
提示2:仔细阅读上述命令的输出。本实验中使用的adapters非常常见。您是否需要知道adapters的实际序列才能将其删除?
任务3:为修剪后的reads文件生成FastQC报告。adapters污染消失了吗?
一旦您认为您已成功修改了读数并通过查看FastQC报告确认了这一点,请随时使用下一部分检查您的结果。
3.2.1 解决方案
您可以使用以下命令trim adapters:
mkdir fastqc_trimmed_results
trim_galore --nextera -o fastqc_trimmed_results Share/ERR522959_1.fastq Share/ERR522959_2.fastq
请记住为trim后的读取文件生成新的FastQC报告!FastQC现在应该显示您的reads通过了“adapters content”图。如果您有任何疑问,请随时向其中一位教师询问。
恭喜!您现在已生成读取质量报告并执行adapters修剪。在下一个实验中,我们将使用STAR和Kallisto将通过rim和质量检查后的reads对其(align)到参考转录组上。