0

    会了GEO数据下载,来看看怎么上传吧

    2023.06.06 | admin | 189次围观

    今天是生信星球陪你的第703天

    大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

    就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

    这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

    豆豆写于2020.8.12

    第一次接触这个操作,下午跟着官网学习了下

    果然,还是看官网的帮助文档最香~

    1 注册NCBI GEO账号

    先注册NCBI账号,在:

    然后注册GEO账号,在:

    GEO可上传的数据类型种类主要集中在芯片和高通量数据,比如芯片数据的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传

    2 提交高通量测序数据须知

    重点需要提交三部分:

    实验总览(metadata spreadsheet):参考样本

    处理过后的数据(processed data files):需要注意

    所有处理过的文件描述都必须体现在metadata文件中

    如果提交了WIG, bedGraph, GFF, GTF文件,格式需要参考:UCSC file format FAQ

    原始数据(raw data files): GEO的原始数据也是会提交给SRA

    关于数据压缩:为了加快传输,可以适当将数据压缩,但不强求。可以使用gzip、bzip2(后缀是.gz或.bz2) ,但不要压缩二进制文件(如BAM、bigWig、bigBed),也不要上传ZIP文件

    3 GEO接受的数据与不可接受的数据GEO可接受的

    基因表达、基因调控、表观以及其他功能基因组学研究,例如

    GEO不可接受的4 重头戏-实验总览(metadata spreadsheet)

    参考样本:

    总共包含7大块4.1 SERIES

    与文章相关的内容

    4.2 SAMPLES

    与样本信息相关的内容

    4.3 PROTOCOLS

    样本的实验操作以及建库流程,简单描述即可

    4.4 DATA PROCESSING PIPELINE

    数据处理描述,比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量

    4.5 PROCESSED DATA FILES

    数据处理后的文件名称

    4.6 RAW FILES

    4.7 PAIRED-END EXPERIMENTS

    如果使用了双端测序数据ftp上传文件没有内容,需要列出各自的名称

    5 准备工作结束后,可以开始上传

    上面的实验总览(metadata spreadsheet)、处理过后的数据(processed data files)、**原始数据(raw data files) ** 都准备好ftp上传文件没有内容,就可以开始准备上传了

    学习如何使用FileZilla进行上传

    首先会看到自己的上传目录,一会将用到

    然后设置FileZilla:

    此时会发生报错,忽略它

    修改Remote site,然后回车连接:

    最后就可以将本地数据上传到GEO指定位置了

    Tips:为了避免FileZilla上传过程出现中断,可以设置断点续传

    6 最后,提醒GEO数据上传完成

    并且会提示再核实一遍信息,没有问题的话5个工作日内就会进行审核

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论