遇到困难,可以放一放,停下来看看这个美好的世界
众所周知,ncbi数据库的fastq原始数据是以sra文件格式存放,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:
然后参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件。使用conda安装aspera
conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh
我用EBI主页搜索SRR号搜索到项目链接,下载fastq或sra数据,这里就直接下载fq数据。
但是有朋友下载报错,如下:
就各种尝试:
我都不需要看他的报错,就能判断出他被教程带歪了,yum是centos系统的管理员权限安装软件,肯定不是他这样的初学者能碰的领域。
我其实已经懒得跟他交流了,但是今早起来,发现他半夜两点还是摸索,而且是莫名其妙的成功了:
我现在非常的怀疑,我在B站免费NGS数据处理视频课程对大家是否有帮助,看起来绝大部分同学是R或者Linux基础知识的问题啊!
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
了解常量和变量概念 加减乘除等运算(计算器) 多种数据类型(数值,字符,逻辑,因子) 多种数据结构(向量,矩阵,数组,数据框,列表) 文件读取和写出 简单统计可视化 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。 第5阶段:任务提交及批处理,脚本编写解放你的双手。 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
赞 (0)