scRNA-seq原始数据的处理

书籍翻译

好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯;分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者。

希望大家能有所收获!

目录

第一章:关于课程

第二章:单细胞RNA-seq简介

处理原始scRNA-seq数据

3.1

FastQC

获得单细胞RNA-seq数据后,首先要做的就是检查已测序的读数的质量。对于此任务,今天我们将使用名为FastQC的工具。FastQC是一种用于测序数据的质量控制工具,可用于bulk和单细胞RNA-seq数据。FastQC将测序数据作为输入,并返回有关读取质量的报告。将此链接复制并粘贴到您的浏览器中以访问FastQC网站:

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

该网站包含下载和安装FastQC的链接以及所生成报告的文档。幸运的是,我们今天已经为您安装了FastQC,因此我们将查看文档。将网页向下滚动到“示例报告”,然后单击“良好的Illumina数据”。这给出了一个对于高质量Illumina的reads数据来说,理想的报告应该是什么样的例子。

现在让我们自己制作一份FastQC报告。

今天,我们将使用由(Kolodziejczyk等人,2015)生成的mESC数据集中的单个细胞进行分析。使用SMART-seq2文库制备方案对细胞进行测序,并对reads进行配对。文件位于Share

注意:本课程的当前文本是为AWS服务器编写的,适用于亲自参加我们课程的人员。您必须自己下载文件(ERR522959_1.fastqERR522959_2.fastq)并创建Share目录才能运行命令。你可以在这里找到这些文件:

https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-2600/samples/

现在让我们来看看文件:

less Share/ERR522959_1.fastq
less Share/ERR522959_2.fastq

任务1:尝试找出用于生成FastQC报告的命令。

提示:尝试执行

fastqc -h

此命令将告诉您可以执行FastQC的参数。如果你遇到困难,请随时寻求帮助!如果成功,则应为生成.zip和.html文件,分别对应于forwards和backwards配对的reads文件。一旦你成功了,可以到下一节。

3.1.1 解决方法并下载报告

如果您还没有这样做,请使用以下命令生成FastQC报告:

mkdir fastqc_results
fastqc -o fastqc_results Share/ERR522959_1.fastq Share/ERR522959_2.fastq

一旦命令执行完毕,您应该总共有四个文件 - 每个配对的reads的一个zip文件,以及每个reads的配对的一个html文件。该报告位于html文件中。如果要查看它,我们需要使用filezilla或scp将它从AWS上移到您的计算机上。

文件在您的计算机上后,点击它就可以打开您的FastQC报告。浏览一下文件。记得forwards和backwards匹配reads报告都要查看!读取的质量如何?有什么我们应该关注的吗?我们如何解决这些问题呢?

3.2

trim reads

幸运的是,有可用于trim reads的软件。今天我们将使用Trim Galore!Trim Galore是一个trim reads的软件包。

read trim软件可用于修整测序adapters 和/或读取末端的低质量reads。鉴于我们注意到FastQC报告中存在一些adapters污染,最好从我们的数据中trim掉adapters。

任务2:我们的数据中使用了哪种类型的adapters?提示:查看FastQC报告“adapters content”图。

现在让我们尝试使用Trim Galore!删除那些有问题的adapters。trim后再次检查读取质量,因此在trim完读数后,应使用FastQC生成另一个报告。

任务3:找出应该用来从我们的数据中trim adapters的命令。提示1:你可以使用

trim_galore -h

要了解哪些参数可以传递给Trim Galore。

提示2:仔细阅读上述命令的输出。本实验中使用的adapters非常常见。您是否需要知道adapters的实际序列才能将其删除?

任务3:为修剪后的reads文件生成FastQC报告。adapters污染消失了吗?

一旦您认为您已成功修改了读数并通过查看FastQC报告确认了这一点,请随时使用下一部分检查您的结果。

3.2.1 解决方案

您可以使用以下命令trim adapters:

mkdir fastqc_trimmed_results
trim_galore --nextera -o fastqc_trimmed_results Share/ERR522959_1.fastq Share/ERR522959_2.fastq

请记住为trim后的读取文件生成新的FastQC报告!FastQC现在应该显示您的reads通过了“adapters content”图。如果您有任何疑问,请随时向其中一位教师询问。

恭喜!您现在已生成读取质量报告并执行adapters修剪。在下一个实验中,我们将使用STAR和Kallisto将通过rim和质量检查后的reads对其(align)到参考转录组上。

(0)

相关推荐

  • 全基因组甲基化分析简述

    DNA甲基化是一种非常基础且重要的表观修饰,在调控基因表达.转录因子结合和抑制转座子元件中起到关键的作用. 目前,DNA甲基化检测的技术已经比较成熟,例如高通量的WGBS.RRBS.MeDIP-seq ...

  • 仅3个单细胞测序样本怎么撑起6分的文章?

    导语 今天和大家分享的是2020年1月份发表在SCIENTIFIC DATA杂志上的一篇文章(IF=5.929)"Single-cell RNA sequencing of human ki ...

  • 技术贴 | 微生太宏基因组报告解读 | 第一篇:测序数据过滤

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 本系列的上一篇推文,即"开篇"中已经描述了宏基因组研究的基本思路和方法.先回顾一下,首先是收集样 ...

  • 特斯拉再发声:愿全力配合提供车辆原始数据,恳请还原真相

    北京时间4月21日晚间,特斯拉官方微博@特斯拉 发布消息称,再次感谢大家一直以来的关切.我们的专门处理小组正在全力开展工作,现将最新进展向大家汇报: 今天下午,我们已主动与郑州市市场监督管理局联系并汇 ...

  • 超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库?

    转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...

  • 研究方法系列 | 代谢组学原始数据预处理平台XCMS Online

    大家在刚开始做代谢组学时往往会遇到第一个难题就是质谱的下机原始数据不会处理的情况,当然很多仪器厂商例如Waters, Thermo, AB都有付费的商业配套软件,不过大多数实验室都没有购买.所有今天我 ...

  • scRNA

    正文 处理原始scRNA-seq数据 3.3 文件格式 3.3.1 FastQC FastQ是您将遇到的最原始形式的scRNASeq数据.所有scRNASeq方案都使用配对末端测序进行测序.Barco ...

  • scRNA 拟时分析||Monocle2踩坑教程

    拟时(pseudotime)分析,又称细胞轨迹(cell trajectory)分析,通过拟时分析可以推断出发育过程细胞的分化轨迹或细胞亚型的演化过程,在发育相关研究中使用频率较高.主要基于关键基因的 ...

  • 中国没有给原始数据假设和提法不成立

    [中国没有给原始数据假设和提法不成立]中国-世界卫生组织新冠病毒溯源联合研究中方专家组组长.清华大学教授梁万年在31日的发布会上说,中外专家在武汉一直坚持四个共同原则,共同在做研究计划.共同在分析,中 ...

  • 中外专家溯源新冠病毒:说“中国没有提供原始数据”不成立

    中国-世界卫生组织新冠病毒溯源联合研究中方专家组组长.清华大学教授梁万年在31日的发布会上说,中外专家在武汉一直坚持四个共同原则,共同在做研究计划.共同在分析,中方专家掌握的信息和外方专家掌握的信息不 ...

  • 使用PCA算法对原始数据降维

    PCA是Principal components analysis的简称,叫做主成分分析,是使用最广泛的降维算法之一.所谓降维,就是降低特征的维度,最直观的变化就是特征的个数变少了.当然,不同于特征筛 ...

  • [勘误]基于Stata的Spatial DID模型设定、原始数据、命令、程序及回归操作演示

    一.引言 2021年6月10日的推文在"如何获取原始数据及其空间权重矩阵?"部分的关键程序是错误的,并且遗漏了把spmat格式空间权重矩阵转换成dta格式空间权重矩阵(进行SEMD ...

  • 前十名原始数据,欢迎监督

    作者简 第一名 王槐菊 12915+105+5262=18282 第二.三.四名 李婷 孔宪铸 陈付芬 10282+120+1990=12392 5670+168+2042=7880 6915+567 ...