今天是生信星球陪你的第703天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2020.8.12
第一次接触这个操作,下午跟着官网学习了下
果然,还是看官网的帮助文档最香~
1 注册NCBI GEO账号
先注册NCBI账号,在:
然后注册GEO账号,在:
GEO可上传的数据类型种类主要集中在芯片和高通量数据,比如芯片数据的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传
2 提交高通量测序数据须知
重点需要提交三部分:
实验总览(metadata spreadsheet):参考样本
处理过后的数据(processed data files):需要注意
所有处理过的文件描述都必须体现在metadata文件中
如果提交了WIG, bedGraph, GFF, GTF文件,格式需要参考:UCSC file format FAQ
原始数据(raw data files): GEO的原始数据也是会提交给SRA
关于数据压缩:为了加快传输,可以适当将数据压缩,但不强求。可以使用gzip、bzip2(后缀是.gz或.bz2) ,但不要压缩二进制文件(如BAM、bigWig、bigBed),也不要上传ZIP文件
3 GEO接受的数据与不可接受的数据GEO可接受的
基因表达、基因调控、表观以及其他功能基因组学研究,例如
GEO不可接受的4 重头戏-实验总览(metadata spreadsheet)
参考样本:
总共包含7大块4.1 SERIES
与文章相关的内容
4.2 SAMPLES
与样本信息相关的内容
4.3 PROTOCOLS
样本的实验操作以及建库流程,简单描述即可
4.4 DATA PROCESSING PIPELINE
数据处理描述,比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量
4.5 PROCESSED DATA FILES
数据处理后的文件名称
4.6 RAW FILES
4.7 PAIRED-END EXPERIMENTS
如果使用了双端测序数据ftp上传文件没有内容,需要列出各自的名称
5 准备工作结束后,可以开始上传
上面的实验总览(metadata spreadsheet)、处理过后的数据(processed data files)、**原始数据(raw data files) ** 都准备好ftp上传文件没有内容,就可以开始准备上传了
学习如何使用FileZilla进行上传
首先会看到自己的上传目录,一会将用到
然后设置FileZilla:
此时会发生报错,忽略它
修改Remote site,然后回车连接:
最后就可以将本地数据上传到GEO指定位置了
Tips:为了避免FileZilla上传过程出现中断,可以设置断点续传
6 最后,提醒GEO数据上传完成
并且会提示再核实一遍信息,没有问题的话5个工作日内就会进行审核
版权声明
本文仅代表作者观点。
本文系作者授权发表,未经许可,不得转载。
发表评论