2018-10-12
生信基础 链特异性

1.链特异性的基本知识

在建库的时候,选择的建库方法可以是链特异性的,链特异性的文库可以清楚地分出reads的方向是否与转录本相同;常用的链特异性文库方法是基于dUTP的方法.

文库类型 PE SE 建库方法
非特异性 Standard Illumina
fr-firststrand RF R dUTP,NSR,NNSR
fr-secondstrand FR F Ligation,Standard SOLiD
Read More

2018-10-12
生信基础 质控的那些事

质控的方向

就平常的生物实验而言,质控是要贯穿到实验的各个阶段的,比如那些阳性阴性对照就可以认为是在进行质控了。而在测序数据的分析过程中,也同样需要将质控贯穿到分析的各个阶段。质控基本上可以分为三个阶段,依据你的分析对象和分析目的不同而有所变化:raw sequence data, alignment, variant calling. 目前比较常见的质控多是局限在raw data的质控这个阶段。虽然如此,另外两个阶段的质控也应该是需要的,因为后续的许多分析也是基于这两个阶段。Raw data 质控的方向通常有以下几类:quality trimming, adapter removal, contaminant filtering. 而在alignment阶段,我们可以通过uniquely mapped reads, signed noise ratio 进行质控。在variant calling阶段,还在调查中……

Read More

2018-10-12
组装或定量 eXpress

https://pachterlab.github.io/eXpress/downloads/express-1.5.1/express-1.5.1-linux_x86_64.tgz

使用方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
express [options]* <target_seqs.fasta> <aligned_reads.(sam/bam)>

# <target_seqs.fasta>: 参考序列的fasta文件
# <aligned_reads.(sam/bam)>: 比对结果文件
# -o path: 指定输出路径
# -B n: 指定进行batch EM rounds计算的次数,以时间为代价提高定量准确性
# -O n: 指定进行online EM rounds计算的次数,以时间为代价提高定量准确性
# -m n: 指定fragment的平均长度
# -s n:指定fragment长度的标准差
# -H str: 以逗号分隔的位置坐标,指定haplotypes的位置。利于等位基因的特异表达定量
# --output-align-samp:
# --output-align-prob:
# --fr-stranded: 指定链特异性比对的方向,read1比对到forward链,read2比对到reverse链
# --rf-stranded:指定链特异性比对的方向,read1比对到reverse链,read2比对到forward链
# --f-stranded: single-end, read比对到forward链
# --r-stranded: single-end, read比对到reverse链
#

输入文件

eXpress需要一个multi-fasta格式的输入文件,计算该文件序列的转录丰度。

Read More

2018-10-12
组装或定量 kallisto_sleuth

免比对的定量:kallisto

kallisto是一个align-free的测序结果定量工具。速度快得很.他可以在10min内完成index的构建,然后花3min完成30 million的human reads的定量。它不仅快速而且准确。

Pseudoalignment保存了用于定量的关键信息。An important feature of kallisto is that it outputs bootstraps along with the estimates of transcript abundances

Read More

2018-10-12
芯片专题 AffyMetrix

一、芯片基础

1.1 芯片平台和包

平台
illumina beadarray, lumi
affymatrix affy,simpleaffy, oligo
agilent 没有找到
Read More

2018-10-12
组装或定量 stringTie

stringTie 是用于 RNA-seq 的转录本组装和定量软件

Read More

2018-10-12
质控软件 raw_data质控

测序数据的质控是必须的,也是主要的。

Read More

2018-10-12
生信基础 测序原理

在生信分析中,我们通常接触的都是下机数据,也就是测序的结果数据,但是这些数据是怎么产生的呢?这就要讲到测序的原理。其实,测序的本质原理就是DNA链的合成咯,通过合成新的 DNA 链我们从而知道 DNA 链的序列组成。一代测序的 sanger 法是通过每步添加一种特定标记的双脱氧核糖核苷酸( ddNTP )来合成 DNA 链,由于 ddNTP 会导致 DNA 链合成的中断,那就可以得到各个长度大小的 DNA 片段,通过跑胶分离则可知道不同DNA长度的链上分别是什么标记,由此知道其标记对应的 ddNTP,从而推出 DNA 的序列组成;这类一代测序法过程比较耗时。而二代测序的改进在于,它是边合成边测序的,无需后续的跑胶等实现;DNA 合成的数量巨大,也就使得测序过程也更为快速。在如今市场上,二代测序虽然说有许多平台,如 Illumina,Roche 454、Ion Torrent,但市场上一直是 Illumina 占据主导地位。所以我们这里将说明一下 Illumina 的测序过程。

Read More