The future is coming for you.

2018-10-12
比对 subread

subread是个套件,里面有subread aligner, subjunc aligner, featureCounts, exactSNP.

subread aligner可以用于DNA-seq和RNA-seq.当用于RNA-seq时,subread只适用于差异分析;对于检测基因组变异如可变剪接之类的,需要reads的完全比对,这时候可以使用subjunc进行比对.在比对RNA-seq数据时,subread不会取检测exon-exon junctions的存在,只会把exon-spanning eads的最大可比对区域作为比对结果.但是,如果只是进行差异分析的话,subread的结果足以进行.subread的比对上reads可能会比subjunc多.

Read More

2018-10-12
生信基础 测序原理

在生信分析中,我们通常接触的都是下机数据,也就是测序的结果数据,但是这些数据是怎么产生的呢?这就要讲到测序的原理。其实,测序的本质原理就是DNA链的合成咯,通过合成新的 DNA 链我们从而知道 DNA 链的序列组成。一代测序的 sanger 法是通过每步添加一种特定标记的双脱氧核糖核苷酸( ddNTP )来合成 DNA 链,由于 ddNTP 会导致 DNA 链合成的中断,那就可以得到各个长度大小的 DNA 片段,通过跑胶分离则可知道不同DNA长度的链上分别是什么标记,由此知道其标记对应的 ddNTP,从而推出 DNA 的序列组成;这类一代测序法过程比较耗时。而二代测序的改进在于,它是边合成边测序的,无需后续的跑胶等实现;DNA 合成的数量巨大,也就使得测序过程也更为快速。在如今市场上,二代测序虽然说有许多平台,如 Illumina,Roche 454、Ion Torrent,但市场上一直是 Illumina 占据主导地位。所以我们这里将说明一下 Illumina 的测序过程。

Read More

2018-10-12
差异分析 RSEM

RSEM利用的是transcripts而非genome。我们有两种方式来构建RSEM转录参考,其一是利用参考基因组来构建;另外一种方式是从许多转录本中构建。

Read More

2018-10-12
差异分析 edgeR

下方的代码把edgeR的三种差异分析整合成一个函数, 调用时直接指定参数即可.

  • classcial
  • glm: likelihood ratio test/ quasi-likelihood F-test
    • quasi-likelihood(qlf): 推荐用于差异分析,因为他对错误率限制较好。
    • likelihood(lrt):对与单细胞RNA-测序和没有重复的数据较好
Read More

2018-10-12
GO_KEGG富集分析 clusterProfiler

首先呢,要详细了解的话,需要看这篇文献(Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges),他把基本的信号通路分析方法进行了总结.

Read More

2018-10-12
差异分析 DESeq2

与DESeq类似的包有:edgeR、limma、DSS、EBSeq、baySeq

一、核心逻辑代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# countData: 以样品为列名,基因为行名的表达矩阵
# colData的形式: 以样品作为行名,列是样品对应的分组类型
# 生成count matrix
dds <- DESeqDataSetFromMatrix(countData = cts,
colData = coldata,
design = ~ batch + condition)
# 生成DESeq数据集
dds <- DESeq(dds)
# 进行比较,获得结果
res <- results(dds, contrast=c('condition', 'treat', 'ctrl'))
resultsNames(dds)
res <- lfcShrink(dds, coef=2)

# DESeqDataSetFromTximport: 由Salmon, Saifish, kallisto生成
# DESeqDataSetFromHTSeq: 由htseq-counts生成
# DESeqDataSet: 由RangedSummarizedExpriment生成
Read More

2018-10-12
生信基础 常用gene_ID的转换

ID 类型

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID
Read More

2018-10-12
生信基础 reads 重复和比对重复

在说duplication之前,我们有必要说一下PCR bias和unique reads. PCR bias是指在PCR扩增的过程中,PCR引物会偏好性地同某条DNA链结合,导致的结果就是这条DNA链被扩增的数目要更多;而不是所有的DNA链被平行扩增.那么什么又是unique reads呢?在得到测序结果后,对于任意两条reads,只要其reads的起点,中间序列,终点这三点有一点不同,这两条reads就是互为unique reads. 所以我们来看, 建库后PCR扩增的测序结果里面,肯定有很多条reads不是unique reads,这些reads就是所谓的duplication, 这其中肯定也包含了PCR bias引起的额外重复.

Read More

2018-10-12
生信基础 unique比对的获取

1.Sam文件各标签含义(tophat/hisat2)

  • NH:i:: N=1时 为unique。常用于tophat/hisat2产生的sam文件unique read筛选。
  • CC:Z: 当为‘=’为map到同一条基因上,一般在map基因组时由于内含子存在而容易出现,他只代表两种不同的方式,计数时应记为1。此处一般为其他基因的名字。CP:i 和HI:i标签为map到第i条基因及起始位置。
  • YT:Z:S 代表的含义与bowtie产生的sam也不同。具体还未知!其他标签AS,XN,XM,XO,XG,NM,MD等如下图可以看出都相同。
Read More

2018-10-12
生信基础 各种数据的下载

三大数据库版本对应情况

NCBI UCSC Ensemble
GRCh36 hg18 ENSEMBL release_52
GRCh37 hg19 ENSEMBL release_59/61/64/68/69/75
GRCh38 hg38 ENSEMBL release_76/77/78/80/81/82
Read More