- edgeR
- DESeq2
- GFOLD
未来为你而来
2018-10-12
2018-10-12
Fastq和Fasta格式
FASTA
Fasta格式是存储序列相关信息的一种格式,包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对,用竖线“|”进行分隔。在最后竖线处,以空格分开,添加序列相关描述。第二部分是序列的详细信息,多数为序列组成。其基本形式如下:
1 | >ENSEMBL|geneID|source2|geneID description |
2018-10-12
Ballgown是一款灵活的用于RNA-seq数据差异分析的软件,除了差异分析,他还可以进行转录本的组织、可视化和分析表达程度。
2018-10-12
1.链特异性的基本知识
- http://www.genek.tv/article/27
- http://databeauty.com/blog/opinion/2016/09/21/RNA-seq-strand-issues.html
在建库的时候,选择的建库方法可以是链特异性的,链特异性的文库可以清楚地分出reads的方向是否与转录本相同;常用的链特异性文库方法是基于dUTP的方法.
文库类型 | PE | SE | 建库方法 |
---|---|---|---|
非特异性 | 无 | 无 | Standard Illumina |
fr-firststrand | RF | R | dUTP,NSR,NNSR |
fr-secondstrand | FR | F | Ligation,Standard SOLiD |
2018-10-12
质控的方向
就平常的生物实验而言,质控是要贯穿到实验的各个阶段的,比如那些阳性阴性对照就可以认为是在进行质控了。而在测序数据的分析过程中,也同样需要将质控贯穿到分析的各个阶段。质控基本上可以分为三个阶段,依据你的分析对象和分析目的不同而有所变化:raw sequence data, alignment, variant calling. 目前比较常见的质控多是局限在raw data的质控这个阶段。虽然如此,另外两个阶段的质控也应该是需要的,因为后续的许多分析也是基于这两个阶段。Raw data 质控的方向通常有以下几类:quality trimming, adapter removal, contaminant filtering. 而在alignment阶段,我们可以通过uniquely mapped reads, signed noise ratio 进行质控。在variant calling阶段,还在调查中……
2018-10-12
limma最开始是用于芯片数据分析的,不过现在也支持RNA-seq等数据的差异分析,但是需要通过voom函数进行校正表达矩阵。
2018-10-12
https://pachterlab.github.io/eXpress/downloads/express-1.5.1/express-1.5.1-linux_x86_64.tgz
使用方法
1 | express [options]* <target_seqs.fasta> <aligned_reads.(sam/bam)> |
输入文件
eXpress需要一个multi-fasta格式的输入文件,计算该文件序列的转录丰度。
2018-10-12
免比对的定量:kallisto
kallisto是一个align-free的测序结果定量工具。速度快得很.他可以在10min内完成index的构建,然后花3min完成30 million的human reads的定量。它不仅快速而且准确。
Pseudoalignment保存了用于定量的关键信息。An important feature of kallisto is that it outputs bootstraps along with the estimates of transcript abundances
2018-10-12
2018-10-12
stringTie 是用于 RNA-seq 的转录本组装和定量软件