The future is coming for you.

2018-10-15
扩增子测序 理论基础

一、 基础概念

microbiota, microbiome, metagenome

Read More

2018-10-15
扩增子测序 QIIME2使用示例

如果数据来源是分批次的话,需要分别导入,在去噪和生成特征表之后,把这些表进行合并,再进行后续分析。也就是说 1-3 对于分批次数据要分批次跑。

Read More

2018-10-15
扩增子测序 QIIME2

1 qiime2中数据的导入与导出

在QIIME2中,所有的输入数据都是以qiime2 artifacts的格式(.qza)存在,该格式有利于数据传递和生成路径追踪。在QIIME2中,你可以在分析的各个阶段导入数据,不论是原始的测序数据,还是经过处理产生的中间数据(eg. biom),你都可以直接导入,接着进行后续分析。导入数据使用qiime tools import命令,你可以使用–show-importable-types和–show-importable-formats查看支持导入的数据类型,选择与你数据相应的导入类型。

你可以使用qiime tools export导出qiime的数据,用于R或者其他软件。这个命令与qiime tools extract命令的差别在于,导出命令只导出数据,与数据相关的生成追踪信息将被丢弃;但是提取命令不会,里面包含的provenance文件保存了这些追踪信息。

Read More

2018-10-15
扩增子测序 mothur使用示例

1 初始说明

  • 测序数据类型

Illumina Miseq paired-end reads

  • 实验设计

断奶后365天(dpw 365)的小鼠排泄物,比较初始10天(dpw 10)和中间10天(dpw140-150)的排泄物的微生物组的稳定性(肠道微生物组的变化情况)。为了简化操作,只用到一只小鼠的十个时间点(前5后5)的数据。这里还有模拟了由21种细菌组成的菌群的全基因组测序数据。先用小鼠的排泄物测序数据学习分析微生物群落,然后用模拟的菌落判断分析的错误率和它在其他分析中的作用。

  • 关于软件

mothur既提供交互模式(像python),也提供命令行模式;后者可以进行批量操作。

Read More

2018-10-15
扩增子测序 QIIME1

1 构建mapping file,并验证是否有误

mapping file记录着样品对应的barcode、primer、treatment group等信息,以tab作为列分割符。各列名如下:

column name Description
SampleID 样品名,数字、字母、点号
BarcodeSequence barcode序列,区分样本
LinkerPrimerSequence 5’端引物
ReversePrimerSequence 3’端反向引物,如果有的话
Treatment 分组信息
Description 样品详细注释
DOB 日期或其他信息

下机reads组成:AdapterA - BarcodeSequence - LinkerPrimerSequence - Target - ReversePrimer - AdapterB

Read More

2018-10-14
ChIP-seq专题 MACS2_ChIPSeeker_deeptools

ChIP-seq是使用抗体捕获富集DNA片段和高通量测序技术来获得某些marker与DNA的结合位点的一项综合技术。ChIP是染色质免疫共沉淀, 通过特异抗体将DNA结合蛋白免疫沉淀, 用于捕获蛋白质的DNA靶点, 比如转录因子啊, 组蛋白修饰啊. 它主要分为以下四步:cross-linking、sonication、IP、Sequencing。在DNA与蛋白交联以后, 通过超声的方式随机打断染色体, 在利用抗体将目的交联物筛选出来, 再反交联获取DNA,最后上机测序.获取到测序数据后,典型的分析流程如图.

ChIP分析流程

Read More

2018-10-14
基因组变异检测(Variance Calling with GATK)

一、基本概念

1.1 名词解释

  • 基因组:个体全部DNA序列的无重复集.这里的基因组不仅仅包含了基因在内,由于目前尚有许多DNA序列不编码蛋白,也可能不会转录,反正就是这些序列的功能还没有研究清楚, 这些序列也都包含在基因组这个范畴里面.
  • Reads:二代测序中的一个专有名词,表示着测序仪对某个DNA片段的一次测序结果,是该DNA序列的序列组成. 其长度依据测序仪不同而不同.
  • 变异:variants, 变异是一个相对的概念,产生于比较之中, 比较是指同耳熟能详的参考基因组相比较. 对于人类基因组的变异来讲,参考基因组是经过“人类基因组”计划测序所得到的最终人类基因组序列.
Read More

2018-10-12
加权共表达基因网络分析 WGCNA

在拿到高通量测序数据以后(特别是基因表达数据),通常要分析基因与表型之间的相关性,以探究基因对表型所起关键的调节功能;而加权基因共表达网络分析(Weighted Gene Coexpression Network Analysis)就是其中比较实用的一种分析方法。那么,什么是加权基因共表达网络分析呢?要了解这个,我们需要对以下前提有所了解。

  • 功能相关的基因,其表达水平/表达模式也基本上是相似的
  • 表达水平高度相关的基因具有潜在的共有调控机制或参与相似的生物学过程
  • 如果得到某个表达模式中涉及到许多基因,其中有些基因是已知的,基于上面两点,那么就可以通过该已知基因的功能推测未知基因的功能

根据上面三点,我们就要得到有许多基因涉及的表达模式,而这个可以通过对基因的表达数据进行聚类得到.讲到这里,WGCNA实质上也是一种聚类方法.而在WGCNA之前,现在也在使用的另一种基因与表型的分析方法,那就是基因共表达网络分析.而WGCNA相较于后者来讲,有何优势?

Read More

2018-10-12
比对 Bowtie2

bowtie2是个超快的、内存占用少的序列比对工具,善于比对相对较长的基因组。bowtie2有gapped、pair-end和local比对模式,可以多线程进行。它是许多pipeline的首个步骤,例如变异检测,CHIP-seq,RNA-seq,BS-seq等等。
bowtie2不像常规目的的比对工具如MUMmer,Blast等。它在大的参考基因组的比对上表现更好,因为它针对当前各个测序平台的测序reads进行过优化。如果你的目的是比对很大的两个序列,比如基因组之间的比对,你应考虑使用MUMmer。如果你的目的是比对相对较短的序列如大肠杆菌的基因组,用bowtie2可以大大减少你的时间。

Read More

2018-10-12
比对 STAR

STAR 的比对速率要比 bowtie 快那么一丢丢。

Read More