三大数据库版本对应情况

NCBI UCSC Ensemble
GRCh36 hg18 ENSEMBL release_52
GRCh37 hg19 ENSEMBL release_59/61/64/68/69/75
GRCh38 hg38 ENSEMBL release_76/77/78/80/81/82

SRA/SRR数据

EBI网站查找数据的SRR,然后使用aspera下载fastq.gz原始数据

1
2
3
4
5
6
7
8
9
10
11
12
# .openssh不可用则改用.putty的文件
# 注意nohup & 之前的那个点".", 是给ascp用的
ascp=~/.aspera/connect/bin/ascp
ssh_key=~/.aspera/connect/etc/asperaweb_id_dsa.openssh
nohup $ascp -P 33001 -i $ssh_key \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR404/000/SRR4041970/SRR4041970_1.fastq.gz . &

# 数据库对应的地址
NCBI: anonftp@ftp-private.ncbi.nlm.nih.gov:genomes/
EBI: era-fasp@fasp.sra.ebi.ac.uk:/vol1/

# sra-tools::prefetch accession

GEO数据

使用GEOquery包进行下载.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 使用GDS858的ID下载
GDS = getGEO('GDS858', destdir='.')
expr_matrix = Table(GDS) #得到表达矩阵
Des_info = Meta(GDS) #得到描述信息(metadata)

# 使用GSE1009的ID下载
# 返回的是含expressionSet对象的list
genes = geneNames(GSE[[1]]) # 得到gene名, geneNames是biobase包里面的
samples = sampleNames(GSE[[1]]) # 得到样品名
pdata = pData(GSE[[1]]) # 得到描述信息(metadata)
expr_matrix = exprs(GSE[[1]]) # 得到表达矩阵

# GPL16699的ID下载
Des_info = Meta(GPL) # 得到描述信息
Annotation = Table(GPL) # 得到芯片注释信息(geneID-probeID)

# 下载原始数据
rawdata = getGEOSuppFiles(GSE1009)

TCGA

xenabrowser整合了TCGA的数据,可以直接选择下载

先从TCGA选择数据,然后下载对应的manifest进行下载.

1
2
TCGA:https://cancergenome.nih.gov/
gdc-client.exe download -m gdc_manifest_20180516_053841.txt -d tcgadata

参考基因组及注释

如果浏览器无法访问,将ftp:改成http:即可

1
2
3
4
# entrez 下载
# 1. 准备好accession或identifier文件
# 2. 选择数据类型
# 3. 上传准备好的文件, 点击Retrieve按钮获取即可

其他

  1. 水稻的参考基因组和注释
  1. 拟南芥

Comments