2018-10-15
扩增子测序 理论基础

一、 基础概念

microbiota, microbiome, metagenome

Read More

2018-10-12
生信基础 无重复样本的差异分析

  • edgeR
  • DESeq2
  • GFOLD
Read More

2018-10-12
生信基础 常用gene_ID的转换

ID 类型

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID
Read More

2018-10-12
生信基础 reads 重复和比对重复

在说duplication之前,我们有必要说一下PCR bias和unique reads. PCR bias是指在PCR扩增的过程中,PCR引物会偏好性地同某条DNA链结合,导致的结果就是这条DNA链被扩增的数目要更多;而不是所有的DNA链被平行扩增.那么什么又是unique reads呢?在得到测序结果后,对于任意两条reads,只要其reads的起点,中间序列,终点这三点有一点不同,这两条reads就是互为unique reads. 所以我们来看, 建库后PCR扩增的测序结果里面,肯定有很多条reads不是unique reads,这些reads就是所谓的duplication, 这其中肯定也包含了PCR bias引起的额外重复.

Read More

2018-10-12
生信基础 unique比对的获取

1.Sam文件各标签含义(tophat/hisat2)

  • NH:i:: N=1时 为unique。常用于tophat/hisat2产生的sam文件unique read筛选。
  • CC:Z: 当为‘=’为map到同一条基因上,一般在map基因组时由于内含子存在而容易出现,他只代表两种不同的方式,计数时应记为1。此处一般为其他基因的名字。CP:i 和HI:i标签为map到第i条基因及起始位置。
  • YT:Z:S 代表的含义与bowtie产生的sam也不同。具体还未知!其他标签AS,XN,XM,XO,XG,NM,MD等如下图可以看出都相同。
Read More

2018-10-12
生信基础 各种数据的下载

三大数据库版本对应情况

NCBI UCSC Ensemble
GRCh36 hg18 ENSEMBL release_52
GRCh37 hg19 ENSEMBL release_59/61/64/68/69/75
GRCh38 hg38 ENSEMBL release_76/77/78/80/81/82
Read More

2018-10-12
差异分析 DESeq2

与DESeq类似的包有:edgeR、limma、DSS、EBSeq、baySeq

一、核心逻辑代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# countData: 以样品为列名,基因为行名的表达矩阵
# colData的形式: 以样品作为行名,列是样品对应的分组类型
# 生成count matrix
dds <- DESeqDataSetFromMatrix(countData = cts,
colData = coldata,
design = ~ batch + condition)
# 生成DESeq数据集
dds <- DESeq(dds)
# 进行比较,获得结果
res <- results(dds, contrast=c('condition', 'treat', 'ctrl'))
resultsNames(dds)
res <- lfcShrink(dds, coef=2)

# DESeqDataSetFromTximport: 由Salmon, Saifish, kallisto生成
# DESeqDataSetFromHTSeq: 由htseq-counts生成
# DESeqDataSet: 由RangedSummarizedExpriment生成
Read More

2018-10-12
生信基础 生信数据格式汇总

Fastq和Fasta格式

FASTA

Fasta格式是存储序列相关信息的一种格式,包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对,用竖线“|”进行分隔。在最后竖线处,以空格分开,添加序列相关描述。第二部分是序列的详细信息,多数为序列组成。其基本形式如下:

1
2
>ENSEMBL|geneID|source2|geneID description
序列ATCG
Read More

2018-10-12
生信基础 链特异性

1.链特异性的基本知识

在建库的时候,选择的建库方法可以是链特异性的,链特异性的文库可以清楚地分出reads的方向是否与转录本相同;常用的链特异性文库方法是基于dUTP的方法.

文库类型 PE SE 建库方法
非特异性 Standard Illumina
fr-firststrand RF R dUTP,NSR,NNSR
fr-secondstrand FR F Ligation,Standard SOLiD
Read More

2018-10-12
生信基础 质控的那些事

质控的方向

就平常的生物实验而言,质控是要贯穿到实验的各个阶段的,比如那些阳性阴性对照就可以认为是在进行质控了。而在测序数据的分析过程中,也同样需要将质控贯穿到分析的各个阶段。质控基本上可以分为三个阶段,依据你的分析对象和分析目的不同而有所变化:raw sequence data, alignment, variant calling. 目前比较常见的质控多是局限在raw data的质控这个阶段。虽然如此,另外两个阶段的质控也应该是需要的,因为后续的许多分析也是基于这两个阶段。Raw data 质控的方向通常有以下几类:quality trimming, adapter removal, contaminant filtering. 而在alignment阶段,我们可以通过uniquely mapped reads, signed noise ratio 进行质控。在variant calling阶段,还在调查中……

Read More