2018-10-12
差异分析 RSEM

RSEM利用的是transcripts而非genome。我们有两种方式来构建RSEM转录参考,其一是利用参考基因组来构建;另外一种方式是从许多转录本中构建。

Read More

2018-10-12
差异分析 edgeR

下方的代码把edgeR的三种差异分析整合成一个函数, 调用时直接指定参数即可.

  • classcial
  • glm: likelihood ratio test/ quasi-likelihood F-test
    • quasi-likelihood(qlf): 推荐用于差异分析,因为他对错误率限制较好。
    • likelihood(lrt):对与单细胞RNA-测序和没有重复的数据较好
Read More

2018-10-12
差异分析 DESeq2

与DESeq类似的包有:edgeR、limma、DSS、EBSeq、baySeq

一、核心逻辑代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# countData: 以样品为列名,基因为行名的表达矩阵
# colData的形式: 以样品作为行名,列是样品对应的分组类型
# 生成count matrix
dds <- DESeqDataSetFromMatrix(countData = cts,
colData = coldata,
design = ~ batch + condition)
# 生成DESeq数据集
dds <- DESeq(dds)
# 进行比较,获得结果
res <- results(dds, contrast=c('condition', 'treat', 'ctrl'))
resultsNames(dds)
res <- lfcShrink(dds, coef=2)

# DESeqDataSetFromTximport: 由Salmon, Saifish, kallisto生成
# DESeqDataSetFromHTSeq: 由htseq-counts生成
# DESeqDataSet: 由RangedSummarizedExpriment生成
Read More

2018-10-12
生信基础 常用gene_ID的转换

ID 类型

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID
Read More

2018-10-12
生信基础 reads 重复和比对重复

在说duplication之前,我们有必要说一下PCR bias和unique reads. PCR bias是指在PCR扩增的过程中,PCR引物会偏好性地同某条DNA链结合,导致的结果就是这条DNA链被扩增的数目要更多;而不是所有的DNA链被平行扩增.那么什么又是unique reads呢?在得到测序结果后,对于任意两条reads,只要其reads的起点,中间序列,终点这三点有一点不同,这两条reads就是互为unique reads. 所以我们来看, 建库后PCR扩增的测序结果里面,肯定有很多条reads不是unique reads,这些reads就是所谓的duplication, 这其中肯定也包含了PCR bias引起的额外重复.

Read More

2018-10-12
生信基础 unique比对的获取

1.Sam文件各标签含义(tophat/hisat2)

  • NH:i:: N=1时 为unique。常用于tophat/hisat2产生的sam文件unique read筛选。
  • CC:Z: 当为‘=’为map到同一条基因上,一般在map基因组时由于内含子存在而容易出现,他只代表两种不同的方式,计数时应记为1。此处一般为其他基因的名字。CP:i 和HI:i标签为map到第i条基因及起始位置。
  • YT:Z:S 代表的含义与bowtie产生的sam也不同。具体还未知!其他标签AS,XN,XM,XO,XG,NM,MD等如下图可以看出都相同。
Read More

2018-10-12
生信基础 各种数据的下载

三大数据库版本对应情况

NCBI UCSC Ensemble
GRCh36 hg18 ENSEMBL release_52
GRCh37 hg19 ENSEMBL release_59/61/64/68/69/75
GRCh38 hg38 ENSEMBL release_76/77/78/80/81/82
Read More

2018-10-12
生信基础 无重复样本的差异分析

  • edgeR
  • DESeq2
  • GFOLD
Read More

2018-10-12
生信基础 生信数据格式汇总

Fastq和Fasta格式

FASTA

Fasta格式是存储序列相关信息的一种格式,包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对,用竖线“|”进行分隔。在最后竖线处,以空格分开,添加序列相关描述。第二部分是序列的详细信息,多数为序列组成。其基本形式如下:

1
2
>ENSEMBL|geneID|source2|geneID description
序列ATCG
Read More

2018-10-12
加权共表达基因网络分析 WGCNA

在拿到高通量测序数据以后(特别是基因表达数据),通常要分析基因与表型之间的相关性,以探究基因对表型所起关键的调节功能;而加权基因共表达网络分析(Weighted Gene Coexpression Network Analysis)就是其中比较实用的一种分析方法。那么,什么是加权基因共表达网络分析呢?要了解这个,我们需要对以下前提有所了解。

  • 功能相关的基因,其表达水平/表达模式也基本上是相似的
  • 表达水平高度相关的基因具有潜在的共有调控机制或参与相似的生物学过程
  • 如果得到某个表达模式中涉及到许多基因,其中有些基因是已知的,基于上面两点,那么就可以通过该已知基因的功能推测未知基因的功能

根据上面三点,我们就要得到有许多基因涉及的表达模式,而这个可以通过对基因的表达数据进行聚类得到.讲到这里,WGCNA实质上也是一种聚类方法.而在WGCNA之前,现在也在使用的另一种基因与表型的分析方法,那就是基因共表达网络分析.而WGCNA相较于后者来讲,有何优势?

Read More