今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA
Toolkit。另外咨询师兄,总结得到新的wget下载的方法。

之前一直用wget 远程下载NCBI
SRA的测序数据,但是不知怎么回事网速巨慢(<1kb);网上查了下用Aspear下载貌似还挺快,速度可达10M/S。

下载原始测序数据:

在GEO数据库搜索GSE87182,
这里没有直接给出ftp地址,需要先从BioProject找到SRA号,可以得到RNA-Seq的SRA的accession_list,共64组数据(SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)。

图片 1

得到SRA号就可以从NCBI的SRA或者EBI的ENA批量下载原始数据了,NCBI下载的原始数据是sra格式,需要用SRA
Toolkit软件包转化为fastq数据格式,EBI下载的数据直接是fastq格式。

这里要注意SRR号并不是连续的,好像有人已经踩过这个坑了,我还是掉进去了,下了一个晚上的数据白瞎了。重新下载,这次只选择下载CC,OC两个脑区域的数据,刚好这两组数据的测序平台也一致。

图片 2

#NCBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done

##SRR4015393和SRR4015394测序质量不好,最好不要下载这两组数据练习。

#EBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_2.fastq.gz;done

另外若觉得wget下载速度慢,可以选择其他下载方法(SRA、SAM以及Fastq文件高速下载方法):

  • 首选Aspera
    Connect软件
    ,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。
  • 其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令
  • 最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar
    Handbook中的wonderdump脚本

SRA数据库介绍
SRA(Sequence ReadArchive)数据库是存储二代测序的原始数据。

根据SRA数据产生的特点,将SRA数据分为四类:
Studies– 研究课题
Experiments– 实验设计
Runs– 测序结果集
Samples– 样品信息
SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.
Studies是就实验目标而言的,一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分:
ERP或SRP表示Studies;
SRS 表示 Samples;
SRX 表示 Experiments;
SRR 表示 Runs;


方法1 NCBI告知的方法(中断不能继续下载)

  • 下载SRA Tookit
    https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software;点击software,选择需要的sra
    toolkit版本进行下载
    图片 3

下载后直接解压到某个指定位置

  • 搜索SRA并获取accesion list
    在NCBI
    sra页面(https://www.ncbi.nlm.nih.gov/sra)输入登陆号%E8%BE%93%E5%85%A5%E7%99%BB%E9%99%86%E5%8F%B7)(
    accession number )进行搜索;显示搜索结果如下
    图片 4
    这里显示的是该project下的所有数据,点击一个,进入sra数据界面
    图片 5
    这里点击1GB(数据大小)的链接,进入下载界面
    图片 6
    再点击Accesion List 下载 Accesio List

  • 使用SRA Tookit 的prefetch进行下载
    prefetch 放在sratoolkit文件夹下的bin

     ~/utilities/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch --option-file SRR_Acc_List.txt
    

      sra数据会下载到家目录下的ncbi/public/sra中,perfetch
    默认aspera下载(如果存在于环境变量,否则使用https下载),也可设置aspera,Ex:prefetch
    -t ascp -a
    “/opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh”
    –option-file file.txt; file.txt
    格式为每一行一个SRR#,可以使用下载界面的RunInfo table下载的文件
    图片 7
    更详情的请查看prefetch
    帮助:

linux版下载地址:百度网盘https://pan.baidu.com/s/1jH9Kd1O

下载基因组数据:

基因组数据:ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/
Ensemble基因组数据的形式包含以下2种:
(1)masked/unmasked
dna_sm– Repeats soft-masked (converts repeat nucleotidesto
lowercase)
dna_rm– Repeats masked (converts repeats to to N’s)
dna– No masking
(2) toplevel / primary assembly
toplevel– Includes haplotype information (notsure how aligners deal
with this)
primary_assembly– contains all toplevel sequenceregions excluding
haplotypes and patches. This is best used for performingsequence
similarity searches where patch and haplotype sequences would
confuseanalysis.

根据README中的介绍,primary_assembly 和 toplevel相比不包含haplotype,
更适合用于比对,对于mask/un mask 通常选择softmask或者unmasked,
一般不用rm的。这个有一个讨论,几个人的回答并不一致,我还是模模糊糊,并不很明白。

macaca的基因组版本没有给出primary_assembly,
所以我下载了sm.toplevel和toplevel,
有时间去比较下会对下游分析有什么影响。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz

方法2使用wget 下载

以下是NCBI 存放SRR5483089的路径
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/
可见ftp构成:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字(548)+/SRR+完整登陆号(5483089)
进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载

安装步骤:

下载注释数据:

注释数据:https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz
  1. 解压之后  sh aspera-connect-3.6.1.110647-linux-64.sh

  2. 上述命令之后,home目录下会出现.aspera/ 的文件夹,执行文件就在里边

下载命令:

ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 200m
anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP***/SRP******/SRR*******/SRR*****.sra
./

-T 表示不加密下载;

-i   下载密钥,软件自带;

-l 设置最大传输速度;

–user=string   用户名,NCBI的为anonftp,EBI的为era-fasp;

–host=string  
ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk;

–mode=string 选择模式,上传为 send,下载为 recv。

参考资料:

SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/
SRA、SAM以及Fastq文件高速下载方法:
http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh\_CN/
SRA数据库介绍:https://www.shengxin.ren/article/16

此外测序数据上传至NCBI也可用Aspera,见本人之前的博客NCBI-SRA数据上传流程。

相关文章