Fastq和Fasta格式

FASTA

Fasta格式是存储序列相关信息的一种格式,包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对,用竖线“|”进行分隔。在最后竖线处,以空格分开,添加序列相关描述。第二部分是序列的详细信息,多数为序列组成。其基本形式如下:

1
2
>ENSEMBL|geneID|source2|geneID description
序列ATCG
1
2
3
4
5
6
7
>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
ATCGATCGATCGATCG...

# gi|13650073 基因ID
# gb|AF349571.1 genebank编号
# Homo sapiens hemoglobin alpha-1 globin chain (HBA1) 基因名称
# mRNA, complete cds 序列类型

FASTQ

Fastq格式是Fasta的一种补充集合格式。由于Fasta格式文件一般不包含序列中碱基质量信息,往往需要额外的一个质量文件。而Fastq格式文件则将这二者综合起来;一个Fastq文件格式亚单位由四行构成。第一行是基本序列信息,由“@”符号开头提示。第二行是序列碱基组成字符。第三行是额外补充信息,由“+”开头提示。第四行是测序碱基的质量值,与第二行的每个字符一一相对应。其基本形式如下:

1
2
3
4
line1:  @sequence-ID description
line2: ATCGATCG...
line3: +description
line4: Qualityvalue
1
2
3
4
5
6
7
8
9
10
11
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
ATCGATCG…..
+
Aliclisjlgij922jida

# @,开始的标记符号;
# ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;
# 2,lane的编号;
# 1101,tail的坐标;
# 7405,在tail中的X坐标;
# 1133,在tail中的Y坐标

phred质量值

由于在测序过程中,信号有强弱,这就导致测序所得碱基与真实碱基之间有偏差的可能;为了衡量这种与实际之间的差异,就出现了phred质量值。Phred质量值指代在某个位点的碱基测序出现错误的可能性(机率)。例如某个碱基测序的错误机率为0.001,那么对该值取log对数值的十倍负值,则可得到phred质量值,如此,质量值越大,代表者测序出错的几率越小。计算公式如下:

1
Qphred,0.001=-10*log10(0.001)=30

但是,每次测序存储数据的内存占用很大,又要额外的内存存储诸如30一类的2位数数字;因此为了简化存储,便将这类质量值与ASCLⅡ对应的字符一一对应起来,实现单个字符显示质量值。在现有版本中,由于fastq格式文件单位首行以\@符号开头,其ASCII值为33;当有碱基的质量值为33时,其质量值字符就与首行提示符\@相冲突。为了避免这种冲突,便将实际质量值加上33作为ASCII码对应字符,这就是Phred33。如果实际质量值加上64则是Phred64。
通过测序所得的原始下机数据因为要包含测序质量信息,这类数据使用fastaq文件格式就更为方便;而经过拼接组装、翻译后的碱基序列、蛋白序列,并没有质量信息,使用fasta格式则较合适。

平台 质量值 具体值 ASCII
sanger phred + 33 0-93 33-126
solexa solexa + 64 -5-62 59-126
illumina~1.8 phred + 64 0-62 64-126
illumina1.8+ phred + 33 0-94 32-126

SAM和BAM格式

利用samtools进行variant calling

SAM是sequence alignment/map format的简称,用于存储序列比对的信息;而BAM是SAM文件的二进制格式,取自binary of SAM。该文件由两部分组成,一部分是以@开头的注释行,另一部分是比对结果部分。查看 FLAG 的具体对应信息,可以在 https://broadinstitute.github.io/picard/explain-flags.html 中进行。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
注释行部分:以@开头进行注释。如:
@HD 说明符合标准的版本、对比序列的排列顺序
@SQ 参考序列的说明
@PG 使用的比对程序
@LN 参考序列的长度

比对结果部分
column 1: query name, 比对片段的编号
column 2: FLAG,表明比对的情况
column 3:比对上的染色体号
column 4:POS,比对上的位置
column 5:MAPQ,比对的质量
column 6:CIGAR,Concise IdiosyncraRc Gapped Alignment Report. 记录插入,删除,错配以及splice junctions(后剪切拼接的接头)
column 7:MRNM,chr,下一个片段比对上的参考序列的编号
column 8:mate pos,下一个片段比对上的位置
column 9:ISIZE,模版的长度
column 10:序列片段的序列信息,read序列
column 11:read质量
column 12:程序用的标记,可选区域

# sam to bam
samtools view -bS input.sam > output.bam

SAM records

GTF/GFF格式

GTF和GFF是用来存储基因和基因组注释信息的文件格式,共有9列信息。
其中,GFF的type必需注明,attribute的名称和值要以空格分开。
GTF的attribute则是以‘=’分开。
我们可以使用cufflinks、gffread、gff2gtf对二者进行转换。

该格式文件的下载方法

格式 列1 列2 列3 列4 列5 列6 列7 列8 列9
GFF seqID source type start end score strand phase attributes
GTF seqName souce start end feature score strand frame attrbuites

Bigwig/wiggle

wig,bigwig,bedgraph 格式文件的作用是追踪参考基因组的各个区域的覆盖度,测序深度, 可以上传到UCSC的genome browser进行可视化.bigwig是wig的二进制版本. 下方是一个wig文件的示例,它只会在前面标明当前染色体一次(chrom=chr1), 测序深度统计的区间间隔是10.
bedgraph是对bed文件的拓展, 是只有4列的BED格式,不过有额外的属性关键字.值得注意的是, bedgraph文件里面的染色体坐标是从0开始的, 坐标终点是个开区间.

对于wig,bw,bdg,gtf,gff等各种文件的转换,可以使用这个网站的脚本.如果是SE的比对文件,可以直接使用下面的命令. 在UCSC的ftp站点中也可以直接下载这类格式的文件.

1
2
3
4
5
6
7
8
9
10
11
12
# sample.wig
track type=print wiggle_0 name=hek description=hek
variableStep chrom=chr1 span=10
10008 7
10018 14
10028 27

# sample.bedgraph
track type=bedGraph name="hek_treat_all" description="Extended tag pileup from MACS version 1.4.2 20120305"
chr1 9997 9999 1
chr1 9999 10000 2
chr1 10000 10001 4

wig,bigwig,bdg的常见转换工具

1
2
3
4
5
6
7
8
# SE.bam to bdg
macs2 pileup --extsize 200 -i sample.bam -o sample.bdg

bigwigToBedGraph
bigWigToWig
bigWigSummary
bigWigAverageOverBed
bigWigInfo

VCF格式

vcf(variant calling format)格式文件用来存储与突变相关的信息。它由两部分组成。
第一部分:头行(vcf header),以##开头,有文件格式,使用软件信息,参考序列信息,重叠群(contig)的相关信息(拼接时reads之间的overlap区域)等等。
第二部分:具体的突变信息,共有八列

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1 CHROM		染色体名称(chromosome),哪一个参考序列上发现了突变,如MAL1 
2 POS 参考基因组上发生突变的位置,以1开始计算,如265854
3 ID 突变的ID,如果在dbSNP中有该SNP的id,则给出;否则为'.',表示是新的variant
4 REF 参考序列上的碱基, 必需是ATCGN之一,N表示不确定.
5 ALT 与参考碱基相比,发生突变的碱基.如REF是G, 而这里是C
6 QUAL 发生突变的碱基质量, 质量越高则是真实variant的可能性越大.如6.2.
7 FILTER 过滤后的状态,如果variant通过GATK的过滤,值为pass.
8 INFO variant的详细信息

详细信息含:
DP 该位置的read覆盖度(reads有经过过滤)
MQ 比对到该位置reads质量值的均方值(RMS Mapping Quality)
FQ 质量值,表征所有样本相似的可能性
AF1 AF1/2表示等位基因发生频率的可能性评估,1为第一个等位基因的频率
AC1 AC1/2表示等位基因出现数目的可能性评估
AN 等位基因的总数目
IS 插入缺失或部分插入缺失的reads所允许的最大数目
INDEL 表明这个variant是插入缺失
QBD 测序深度对碱基质量的影响
其他(http://www.bio-info-trainee.com/863.html)

参考

Comments