生信基础

2018-10-15

扩增子测序理论基础

一、基础概念

microbiota, microbiome, metagenome

edgeR
DESeq2
GFOLD

ID 类型

ID 示例	ID 来源
ENSG00000116717	Ensemble ID
GA45A_HUMAN	UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN	UniProtKB/TrEMBL, entry name
A2BC19, P12345,	A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1	HGNC Gene Symbol
U12345, AF123456	GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456	RefSeq, NCBI, accession number
10598, 717	Entrez ID, NCBI
uc001ett, uc031tla.1	UCSC ID

2018-10-12

生信基础 reads 重复和比对重复

在说duplication之前,我们有必要说一下PCR bias和unique reads. PCR bias是指在PCR扩增的过程中,PCR引物会偏好性地同某条DNA链结合,导致的结果就是这条DNA链被扩增的数目要更多;而不是所有的DNA链被平行扩增.那么什么又是unique reads呢?在得到测序结果后,对于任意两条reads,只要其reads的起点,中间序列,终点这三点有一点不同,这两条reads就是互为unique reads. 所以我们来看, 建库后PCR扩增的测序结果里面,肯定有很多条reads不是unique reads,这些reads就是所谓的duplication, 这其中肯定也包含了PCR bias引起的额外重复.

1.Sam文件各标签含义（tophat/hisat2)

NH:i:: N=1时为unique。常用于tophat/hisat2产生的sam文件unique read筛选。
CC:Z: 当为‘=’为map到同一条基因上，一般在map基因组时由于内含子存在而容易出现，他只代表两种不同的方式，计数时应记为1。此处一般为其他基因的名字。CP:i 和HI：i标签为map到第i条基因及起始位置。
YT:Z:S 代表的含义与bowtie产生的sam也不同。具体还未知！其他标签AS，XN,XM,XO,XG,NM,MD等如下图可以看出都相同。

三大数据库版本对应情况

NCBI	UCSC	Ensemble
GRCh36	hg18	ENSEMBL release_52
GRCh37	hg19	ENSEMBL release_59/61/64/68/69/75
GRCh38	hg38	ENSEMBL release_76/77/78/80/81/82

与DESeq类似的包有：edgeR、limma、DSS、EBSeq、baySeq

一、核心逻辑代码

# countData: 以样品为列名,基因为行名的表达矩阵
# colData的形式: 以样品作为行名,列是样品对应的分组类型
# 生成count matrix
dds <- DESeqDataSetFromMatrix(countData = cts,
                              colData = coldata,
                              design = ~ batch + condition)
# 生成DESeq数据集
dds <- DESeq(dds)
# 进行比较，获得结果
res <- results(dds, contrast=c('condition', 'treat', 'ctrl'))
resultsNames(dds)
res <- lfcShrink(dds, coef=2)

#  DESeqDataSetFromTximport:   由Salmon, Saifish, kallisto生成
#  DESeqDataSetFromHTSeq:      由htseq-counts生成
#  DESeqDataSet:               由RangedSummarizedExpriment生成

Fastq和Fasta格式

FASTA

Fasta格式是存储序列相关信息的一种格式，包含两个部分。Fasta第一个部分是以“>”开头的一行。以序列来源、序列ID为值对，用竖线“|”进行分隔。在最后竖线处，以空格分开，添加序列相关描述。第二部分是序列的详细信息，多数为序列组成。其基本形式如下：

1 2	>ENSEMBL\|geneID\|source2\|geneID description 序列ATCG

1.链特异性的基本知识

在建库的时候,选择的建库方法可以是链特异性的,链特异性的文库可以清楚地分出reads的方向是否与转录本相同;常用的链特异性文库方法是基于dUTP的方法.

文库类型	PE	SE	建库方法
非特异性	无	无	Standard Illumina
fr-firststrand	RF	R	dUTP,NSR,NNSR
fr-secondstrand	FR	F	Ligation,Standard SOLiD

质控的方向

就平常的生物实验而言，质控是要贯穿到实验的各个阶段的，比如那些阳性阴性对照就可以认为是在进行质控了。而在测序数据的分析过程中，也同样需要将质控贯穿到分析的各个阶段。质控基本上可以分为三个阶段，依据你的分析对象和分析目的不同而有所变化：raw sequence data, alignment, variant calling. 目前比较常见的质控多是局限在raw data的质控这个阶段。虽然如此，另外两个阶段的质控也应该是需要的，因为后续的许多分析也是基于这两个阶段。Raw data 质控的方向通常有以下几类：quality trimming, adapter removal, contaminant filtering. 而在alignment阶段，我们可以通过uniquely mapped reads, signed noise ratio 进行质控。在variant calling阶段，还在调查中……

2018-10-15

扩增子测序理论基础

一、基础概念

2018-10-12

生信基础无重复样本的差异分析

2018-10-12

生信基础常用gene_ID的转换

ID 类型

2018-10-12

生信基础 reads 重复和比对重复

2018-10-12

生信基础 unique比对的获取

1.Sam文件各标签含义（tophat/hisat2)

2018-10-12

生信基础各种数据的下载

三大数据库版本对应情况

2018-10-12

差异分析 DESeq2

一、核心逻辑代码

2018-10-12

生信基础生信数据格式汇总

Fastq和Fasta格式

FASTA

2018-10-12

生信基础链特异性

1.链特异性的基本知识

2018-10-12

生信基础质控的那些事

质控的方向

Categories

Tag Cloud

Recent Posts

Links

生信基础

2018-10-15 扩增子测序 理论基础

一、 基础概念

2018-10-12 生信基础 无重复样本的差异分析

2018-10-12 生信基础 常用gene_ID的转换

ID 类型

2018-10-12 生信基础 reads 重复和比对重复

2018-10-12 生信基础 unique比对的获取

1.Sam文件各标签含义（tophat/hisat2)

2018-10-12 生信基础 各种数据的下载

三大数据库版本对应情况

2018-10-12 差异分析 DESeq2

一、核心逻辑代码

2018-10-12 生信基础 生信数据格式汇总

Fastq和Fasta格式

FASTA

2018-10-12 生信基础 链特异性

1.链特异性的基本知识

2018-10-12 生信基础 质控的那些事

质控的方向

Categories

Tag Cloud

Recent Posts

Links

2018-10-15

扩增子测序理论基础

一、基础概念

2018-10-12

生信基础无重复样本的差异分析

2018-10-12

生信基础常用gene_ID的转换

2018-10-12

生信基础 reads 重复和比对重复

2018-10-12

生信基础 unique比对的获取

2018-10-12

生信基础各种数据的下载

2018-10-12

差异分析 DESeq2

2018-10-12

生信基础生信数据格式汇总

2018-10-12

生信基础链特异性

2018-10-12

生信基础质控的那些事