上传数据到GEO数据库实战笔记

师兄的文章要送审,编辑让把RNA-seq的数据传到GEO数据库上,今天就在传这个数据。

之前没传过数据,今天就是一边学一边搞这个。

一、注册账号

先注册一个GEO账号

二、准备工作

选择Data types:Submit high-throughput sequencing;

Submit high-throughput sequencing data to GEO

分为三个部分准备工作

1.Metadata spreadsheet

Download metadata spreadsheet(template and examples)把相关示例的表格模板下载下来,将自己的详细信息填写完整

下面图片为metadata要填的信息

series是要写一些对实验信息的描述

samples是要写关于实验做的一共多少个样本,每个样本的详细信息,最后两列如果是单端测序就同一个文件的名字,如果是双端测序就要写不同的名字。

protocols主要是样品的处理方式以及测序建库的方式

data processing pipeline 主要是关于样品从上机到得到原始数据及之后的处理仪器,步骤等,还有genome build等等。

2.Processed data files and Raw data files

会包括一个到多个文件,是根据raw data得到的counts,FPKM等等数据,需要提取单个样本的值和geneid在一个文本文件中,如果是10个样本,那么就需要分成10个文本文件,都要上传上去。保存到同一文件夹中Processed data files。

对于Raw data files,在表格中需要准确的把文件的名字写对,双端测序要都上传,file_name 1和file_name 2要写准确。

三、数据上传(Uploading your submission)

信息表都填好了以后,进行数据上传

点击Transfer Files

step1:会有一个在服务器主机上的upload的位置:upload/.....(一般是这种)

step2:按照第二步的提示进行上传,需要安装用于上传的软件,Linux推荐ncftp和lftp。

可以用conda安装ncftp

conda install -c flynn ncftp

网页会给一些服务器主机的相关信息

host address ftp-private.ncbi.nlm.nih.gov
username geoftp
password rebUzyi1

#具体代码
ncftpput -F -R -z -u geoftp -p "rebUzyi1" ftp-private.ncbi.nlm.nih.gov  uploads/...(step1给出的位置)  /home/..../geo_submission/*(自己创建的文件夹)

等待上传完成

step3: notify GEO

点进去需要填写你建立的文件夹名称,期望数据公开的时间等等

上传成功或者数据有问题GEO都会以邮件的形式进行通知。

如果经审核数据没有问题,几个工作日后GEO会以邮件形式通知数据的GSM(实验样本编号)GSE(研究项目编号)

最后祝大家科研成果早日发表!

文末友情推荐

(0)

相关推荐