The future is coming for you.

2018-10-12
生信基础 无重复样本的差异分析

  • edgeR
  • DESeq2
  • GFOLD
Read More

2018-10-12
生信基础 生信数据格式汇总

Fastq和Fasta格式

FASTA

Fasta格式是存储序列相关信息的一种格式,包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对,用竖线“|”进行分隔。在最后竖线处,以空格分开,添加序列相关描述。第二部分是序列的详细信息,多数为序列组成。其基本形式如下:

1
2
>ENSEMBL|geneID|source2|geneID description
序列ATCG
Read More

2018-10-12
差异分析 Ballgown

Ballgown是一款灵活的用于RNA-seq数据差异分析的软件,除了差异分析,他还可以进行转录本的组织、可视化和分析表达程度。

Read More

2018-10-12
生信基础 链特异性

1.链特异性的基本知识

在建库的时候,选择的建库方法可以是链特异性的,链特异性的文库可以清楚地分出reads的方向是否与转录本相同;常用的链特异性文库方法是基于dUTP的方法.

文库类型 PE SE 建库方法
非特异性 Standard Illumina
fr-firststrand RF R dUTP,NSR,NNSR
fr-secondstrand FR F Ligation,Standard SOLiD
Read More

2018-10-12
生信基础 质控的那些事

质控的方向

就平常的生物实验而言,质控是要贯穿到实验的各个阶段的,比如那些阳性阴性对照就可以认为是在进行质控了。而在测序数据的分析过程中,也同样需要将质控贯穿到分析的各个阶段。质控基本上可以分为三个阶段,依据你的分析对象和分析目的不同而有所变化:raw sequence data, alignment, variant calling. 目前比较常见的质控多是局限在raw data的质控这个阶段。虽然如此,另外两个阶段的质控也应该是需要的,因为后续的许多分析也是基于这两个阶段。Raw data 质控的方向通常有以下几类:quality trimming, adapter removal, contaminant filtering. 而在alignment阶段,我们可以通过uniquely mapped reads, signed noise ratio 进行质控。在variant calling阶段,还在调查中……

Read More

2018-10-12
差异分析 limma

limma最开始是用于芯片数据分析的,不过现在也支持RNA-seq等数据的差异分析,但是需要通过voom函数进行校正表达矩阵。

Read More

2018-10-12
组装或定量 eXpress

https://pachterlab.github.io/eXpress/downloads/express-1.5.1/express-1.5.1-linux_x86_64.tgz

使用方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
express [options]* <target_seqs.fasta> <aligned_reads.(sam/bam)>

# <target_seqs.fasta>: 参考序列的fasta文件
# <aligned_reads.(sam/bam)>: 比对结果文件
# -o path: 指定输出路径
# -B n: 指定进行batch EM rounds计算的次数,以时间为代价提高定量准确性
# -O n: 指定进行online EM rounds计算的次数,以时间为代价提高定量准确性
# -m n: 指定fragment的平均长度
# -s n:指定fragment长度的标准差
# -H str: 以逗号分隔的位置坐标,指定haplotypes的位置。利于等位基因的特异表达定量
# --output-align-samp:
# --output-align-prob:
# --fr-stranded: 指定链特异性比对的方向,read1比对到forward链,read2比对到reverse链
# --rf-stranded:指定链特异性比对的方向,read1比对到reverse链,read2比对到forward链
# --f-stranded: single-end, read比对到forward链
# --r-stranded: single-end, read比对到reverse链
#

输入文件

eXpress需要一个multi-fasta格式的输入文件,计算该文件序列的转录丰度。

Read More

2018-10-12
组装或定量 kallisto_sleuth

免比对的定量:kallisto

kallisto是一个align-free的测序结果定量工具。速度快得很.他可以在10min内完成index的构建,然后花3min完成30 million的human reads的定量。它不仅快速而且准确。

Pseudoalignment保存了用于定量的关键信息。An important feature of kallisto is that it outputs bootstraps along with the estimates of transcript abundances

Read More

2018-10-12
芯片专题 AffyMetrix

一、芯片基础

1.1 芯片平台和包

平台
illumina beadarray, lumi
affymatrix affy,simpleaffy, oligo
agilent 没有找到
Read More

2018-10-12
组装或定量 stringTie

stringTie 是用于 RNA-seq 的转录本组装和定量软件

Read More