学员分享-aspera踩坑记录

2024-06-16 23:50:01

总有一些难关，需要帮助才能跨过去，一起来看看学员的真实反馈吧！

下面是第五期生信入门学员的分享

介绍一下自己，一枚生信小白，研一在读，之前基本没有生信基础。

19年开学的时候是打算自学，偶然间发现生信技能树，然后在b站上看了生信技能树的视频，基础不够，看了一部分R语言的相关视频就没有继续看下去了。我在天津上学，一开始还想等生信技能树来天津然后报线下课，由于这次疫情的我，有机会上了线上班。我是第五期学员，现在已经是上完课的状态，虽然自己上完课了依旧很菜，但是至少让我有勇气，有底气觉得自己有一点点入门的希望，有可以让自己继续学下去的勇气。也把如此好的课程推荐给大家，生信技能树官方举办的学习班：

数据挖掘学习班第5期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。
生信爆款入门-第7期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。

在六月初开始上课，当时一度怀疑自己跟不下来，现在想想真的是没有什么干不成的事儿。哈哈哈，我竟然这么飘。小洁老师的耐心，一直在说新手犯错没关系，让我一直有勇气学下去；郭老师的Linux，让我从之前听到Linux就有点害怕学习这个，到现在大概了解了这个系统，初入门的感觉真好；张老师带我们做的转录组测序，虽然老师上课的时候我在上第二天的课的时候就已经跟不上了，我都是上完课第二天去复习，在结课的最后一天也是晕晕乎乎的结课了。

我告诉自己一定要加油，因为钉钉群授课，我们的直播互动视频都保存下来了，所以我上周开始重新复习课程，印象最深的张老师讲的课开始的目录管理，非常非常非常重要！！！我现在就在想我一开始用windows系统的时候怎么没有人教我这个，所以在一开始用电脑现在想想真的是混乱。

我想分享一下转录组测序准备工作到数据下载我踩的大坑，每次登录服务器要先激活我的小环境（时刻提醒自己），目录管理要做好，软件，数据，项目要分开。

下面主要说说我的数据下载踩的坑，多亏了张老师的帮助让我从这两天的坑中跳了出来，我是用的aspera软件下载的。

在conda下安装aspera软件

conda install-y-chcc aspera-cli

which ascp

找到要下载的数据的BioProject；一般知道它的GEO accession和SRA number就可以从GEO和SRA网站上找到。通过下面这个网站进入https://www.ebi.ac.uk/ena/browser/home

img

show selected columns

img

下载它的tsv格式文件，用xftp上传到Linux自己操作的目录下面

数据下载

单个文件下载 sra格式文件和gz格式文件，这个操作是简单的，完成的很好。

# sra格式 ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/000/SRR1039510 ~/project/Human-16-Asthma-Trans/data/rawdata/sra


# gz格式

ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz ~/project/Human-16-Asthma-Trans/data/rawdata/sra

批量下载（对我来说很有问题）

得到sra.url文件，如果行尾存在特殊字符，运行 sed -i "s/\s*$//g" sra.url去掉行尾特殊字符

cat filereport_read_run_PRJNA229998_tsv.txt |awk'NR>1{print $NF}'>sra.url

这里我踩了个大坑。下载下来数据在windows下面用Excel打开了一下再上传的，由于点了每行行尾，然后在上传上去之后生成的sra.url文件每行行尾多了特殊字符，对数据下载流程即代码都不熟悉的我，开启了为时两天的踩坑。

在这里我是在后面生成sra.download.sh的时候才发现的，vim sra.download.sh，然后出现了下面这个图，我一直没有想明白怎么回事，后来在张老师的指点下，了解到时我上面写的那个问题，由于自己在windows下打开了文件并操作了一下再上传的。

img

去掉了这个特殊字符以后满怀信心的本以为我可以一路畅通的做下去。

接着继续按照张老师上课的代码依据自己的目录修改了一下，去做了下面的命令最后显示的还是报错，在我挽救了一天的情况下，还是求助了张老师，最后发现 outputdir=/project/Human-16-Asthma-Trans/data/rawdata/sra 这句命令错了，错误命令（outputdir=/project/Human-16-Asthma-Trans/data/rawdata/sra）没有加~ 。

由于我错误的理解了绝对路径，在前几周上郭老师的课的时候Linux掌握的不好，所以在经过这次报错之后一定要好好的把郭老师的课反复听几遍并掌握。

批量下载的命令

outputdir=~/project/Human-16-Asthma-Trans/data/rawdata/sra cat sra.url |while read id do echo"ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}" done>sra.download.sh

就成功了。

提交后台

这里需要使用nohup这个技巧，：

nohup bash sra.download.sh >sra.download.log &

数据完整性检验(非常重要！！！)

得到md5值

awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt

md5值检验

md5sum -c md5.txt

由于上面的命令错误，导致了md5值检验的错误，在整体改正之后出现了下面第二个图的结果。md5值检验 OK

img

希望自己以后多多踩坑，多多解决问题，在生信的道路上越走越顺利，哈哈哈。诚挚地感谢曾老师一直的鼓励，也谢谢生信技能树第五期课程上课的几位老师

如何高效又简单地省时地获得SRA公共数据的Fastq格式数据

如何高效又简单地省时地获得SRA公共数据的Fastq格式数据陈胖子下载NCBI SRA数据库上的公共数据,整体上还是大部分搞数据分析,又想灌水的人必做的一个事情. 其实直接使用官网推荐的工具asp ...
【数据库】SRA数据库介绍及数据下载

[数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...
超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库？

转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...
踩坑日志 | kingfisher 公共测序数据 SRA/Fastq 下载神器！

导言前几天看到基因课的东哥提了一下kingfisher,一个看起来就是极度便利的公共测序数据下载工具.我非常感兴趣,但也确实没时间折腾,于是继续丢给师弟去看看(事实上,他肯定也有类似需求....). ...
【生信笔记】高速下载测序数据：Aspera的安装与使用

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...
MAC版: 保姆式SRA Toolkit下载原始数据

本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...
springboot提交文件和参数类到后台（踩坑记录）

原本以为类和文件不能一起提交,于是把文件当成类的属性写在类里,然后controller通过getValue得到文件达到该目的. 后来试了一下,requestParam写类的各个属性,文件放在body, ...
CMOS器件输入管脚不能悬空？硬件调试踩坑记录

前言最近在调试一块板卡时,发现了一个奇怪的问题,一款反相器--CD4049出现异常发热现象.虽然板卡已经做过温箱老化试验了,即在60度恒温条件下最大功率运行24小时,运行还算正常.但是一次偶然的机会 ...
学员分享 | 短视频，记录生活之美

作者:别针排版 | 编辑:梅花的梅花如果说摄影是定格美好瞬间的秒针,那视频就是定格美好的分针,把生活中所有灵动的美好都汇集在时间的流里,一遍一遍,循环反复,直到生命的永远-- 在学习短视频之前,我 ...
samtools安装踩坑记录

问题描述: 我用conda安装的samtools软件但是在使用samtools的时候,总是报错,没有载入samtools的库文件(动态库缺失) samtools: error while loadi ...
踩坑记录之csv数据导入MySQL

可能采坑的操作将excel表格转换成csv 逗号分隔,然后notepad检查文件是否是utf8编码,保存. 打开 phpMyAdmin , 选择要导入的表格,然后点击导入: 导入设置点击执行之后, ...
wifi组网踩坑记录！买了8个路由器，4个是垃圾！华为小米TPlink腾达……结果傻眼！2019装修日记015

解决个wifi死角,咋就这么费劲? 为了保持叙事的连贯性-- 请允许我模仿下美剧开场~~ 前情提要(Previously on WiFi): 170平的大平层,没有做网线改造,只能靠wifi连 ...
使用velocyto进行bam转loom吐血踩坑记录

报错信息如下: Traceback (most recent call last): File "miniconda3/envs/velocyto/bin/velocyto", ...
uni-app 开发随笔（踩坑记录）

这里总结一些uni-app开发时我遇到的坑 uni-app获取元素高度及屏幕高度(uni-app不可使用document) uni.getSystemInfo({ success: function( ...
干货分享｜高中政治必修1~4选择题必背300条易错点，你踩坑了吗？

文科生最难的就是要背的知识点太多!其实无论我们记忆哪一学科的知识点,都是以理解为主.理解之后再进行记忆,做题时才能活学活用. 你平时记忆政治知识点的方法都有哪些呢?列表记忆.概括记忆.提纲记忆.口诀记 ...