2018-10-12
差异分析 limma

limma最开始是用于芯片数据分析的,不过现在也支持RNA-seq等数据的差异分析,但是需要通过voom函数进行校正表达矩阵。

Read More

2018-10-12
加权共表达基因网络分析 WGCNA

在拿到高通量测序数据以后(特别是基因表达数据),通常要分析基因与表型之间的相关性,以探究基因对表型所起关键的调节功能;而加权基因共表达网络分析(Weighted Gene Coexpression Network Analysis)就是其中比较实用的一种分析方法。那么,什么是加权基因共表达网络分析呢?要了解这个,我们需要对以下前提有所了解。

  • 功能相关的基因,其表达水平/表达模式也基本上是相似的
  • 表达水平高度相关的基因具有潜在的共有调控机制或参与相似的生物学过程
  • 如果得到某个表达模式中涉及到许多基因,其中有些基因是已知的,基于上面两点,那么就可以通过该已知基因的功能推测未知基因的功能

根据上面三点,我们就要得到有许多基因涉及的表达模式,而这个可以通过对基因的表达数据进行聚类得到.讲到这里,WGCNA实质上也是一种聚类方法.而在WGCNA之前,现在也在使用的另一种基因与表型的分析方法,那就是基因共表达网络分析.而WGCNA相较于后者来讲,有何优势?

Read More

2018-10-12
比对 Bowtie2

bowtie2是个超快的、内存占用少的序列比对工具,善于比对相对较长的基因组。bowtie2有gapped、pair-end和local比对模式,可以多线程进行。它是许多pipeline的首个步骤,例如变异检测,CHIP-seq,RNA-seq,BS-seq等等。
bowtie2不像常规目的的比对工具如MUMmer,Blast等。它在大的参考基因组的比对上表现更好,因为它针对当前各个测序平台的测序reads进行过优化。如果你的目的是比对很大的两个序列,比如基因组之间的比对,你应考虑使用MUMmer。如果你的目的是比对相对较短的序列如大肠杆菌的基因组,用bowtie2可以大大减少你的时间。

Read More

2018-10-12
比对 STAR

STAR 的比对速率要比 bowtie 快那么一丢丢。

Read More

2018-10-12
比对 subread

subread是个套件,里面有subread aligner, subjunc aligner, featureCounts, exactSNP.

subread aligner可以用于DNA-seq和RNA-seq.当用于RNA-seq时,subread只适用于差异分析;对于检测基因组变异如可变剪接之类的,需要reads的完全比对,这时候可以使用subjunc进行比对.在比对RNA-seq数据时,subread不会取检测exon-exon junctions的存在,只会把exon-spanning eads的最大可比对区域作为比对结果.但是,如果只是进行差异分析的话,subread的结果足以进行.subread的比对上reads可能会比subjunc多.

Read More

2018-10-12
比对软件 Hisat2

hisat2是快速灵敏的比对软件,可用于全基因组测序,转录组测序,外显子测序的数据比对.基于GCSA(bwt的拓展),我们设计了graph FM index用于比对。hisat2的比对结果是sam格式文件,你可以使用samtools,GATK等软件进行后续的分析.

Read More

2018-10-12
差异分析 RSEM

RSEM利用的是transcripts而非genome。我们有两种方式来构建RSEM转录参考,其一是利用参考基因组来构建;另外一种方式是从许多转录本中构建。

Read More

2018-10-12
差异分析 edgeR

下方的代码把edgeR的三种差异分析整合成一个函数, 调用时直接指定参数即可.

  • classcial
  • glm: likelihood ratio test/ quasi-likelihood F-test
    • quasi-likelihood(qlf): 推荐用于差异分析,因为他对错误率限制较好。
    • likelihood(lrt):对与单细胞RNA-测序和没有重复的数据较好
Read More

2018-10-12
差异分析 Ballgown

Ballgown是一款灵活的用于RNA-seq数据差异分析的软件,除了差异分析,他还可以进行转录本的组织、可视化和分析表达程度。

Read More

2018-10-12
组装或定量 eXpress

https://pachterlab.github.io/eXpress/downloads/express-1.5.1/express-1.5.1-linux_x86_64.tgz

使用方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
express [options]* <target_seqs.fasta> <aligned_reads.(sam/bam)>

# <target_seqs.fasta>: 参考序列的fasta文件
# <aligned_reads.(sam/bam)>: 比对结果文件
# -o path: 指定输出路径
# -B n: 指定进行batch EM rounds计算的次数,以时间为代价提高定量准确性
# -O n: 指定进行online EM rounds计算的次数,以时间为代价提高定量准确性
# -m n: 指定fragment的平均长度
# -s n:指定fragment长度的标准差
# -H str: 以逗号分隔的位置坐标,指定haplotypes的位置。利于等位基因的特异表达定量
# --output-align-samp:
# --output-align-prob:
# --fr-stranded: 指定链特异性比对的方向,read1比对到forward链,read2比对到reverse链
# --rf-stranded:指定链特异性比对的方向,read1比对到reverse链,read2比对到forward链
# --f-stranded: single-end, read比对到forward链
# --r-stranded: single-end, read比对到reverse链
#

输入文件

eXpress需要一个multi-fasta格式的输入文件,计算该文件序列的转录丰度。

Read More