在生信分析中,我们通常接触的都是下机数据,也就是测序的结果数据,但是这些数据是怎么产生的呢?这就要讲到测序的原理。其实,测序的本质原理就是DNA链的合成咯,通过合成新的 DNA 链我们从而知道 DNA 链的序列组成。一代测序的 sanger 法是通过每步添加一种特定标记的双脱氧核糖核苷酸( ddNTP )来合成 DNA 链,由于 ddNTP 会导致 DNA 链合成的中断,那就可以得到各个长度大小的 DNA 片段,通过跑胶分离则可知道不同DNA长度的链上分别是什么标记,由此知道其标记对应的 ddNTP,从而推出 DNA 的序列组成;这类一代测序法过程比较耗时。而二代测序的改进在于,它是边合成边测序的,无需后续的跑胶等实现;DNA 合成的数量巨大,也就使得测序过程也更为快速。在如今市场上,二代测序虽然说有许多平台,如 Illumina,Roche 454、Ion Torrent,但市场上一直是 Illumina 占据主导地位。所以我们这里将说明一下 Illumina 的测序过程。

Illumina 的测序过程

Illumina 的测序原理基本上可以采用这几个关键词来概括:桥式 PCR,可逆阻断技术;其测序过程基本可以分为三个阶段,library preparation,cluster,sequencing。在建库之前,我们需要对样品进行预处理。

sample preprocessing

在这一步,主要是对样品进行处理筛选,把不符合测序要求的低质量样品排除,以免影响测序结果。进行测序的样品主要有以下要求。

  • 样品DNA最好是单倍体,避免等位基因与测序错误相混淆(但这个似乎很难把控)
  • DNA的纯度要高,OD值
  • DNA要避免降解,以防影响打断片段的大小
  • DNA的样品量要满足基本的建库需求

library preparation

在建库的过程中,也可以粗略打断、添加 adapter 。
首先是对 DNA 进行打断,使其片段化(fragment)。基本方法有超声法,机械法和酶解法,其打断后的 DNA fragment 大小一般分别是 500,150,300,在实际应用中,一般使用的是超声法。我们应该注意,500 的片段大小是指打断后的大部分片段都是在 500bp 附近。这 个DNA fragment length 我们也称之为insertSize。
其次是添加 adapter。在添加 adapter 之前,需要给 DNA fragment 进行末端补齐,然后加上一个 A 碱基,使其变为黏性末端;随后通过该黏性末端添加上 adapter 。至此文库制备完成。

cluster

在制备好文库以后,需要将文库样品上样至 flowcell 中。flowcell的具体情况可看下图(https://imgchr.com/i/PAg4o9)。

flowcell

在 flowcell 的 tile 上锚定了大量的 DNA 短序列,这些DNA短序列能与 adapter 进行互补配对。在我们上样后,添加了 adapter 的 DNA fragment 可被这些 tile 上的序列捕捉锚定。在洗脱多余的 DNA fragment 后,改变缓冲液,使得被锚定的 DNA fragment 的另一端也被锚定,从而导致 DNA fragment 形成拱形,这也是桥式PCR的由来。基于此,DNA fragment 被扩增,形成了 DNA fragment cluster。此举可使得每个 DNA fragment cluster 组成一致成分单一但数目巨大,为后续测序做准备。最后,加入对应的酶将DNA链的反向链切除(酶切位点在反向 adapter 上),使得 DNA fragment 正向链剩余。

sequencing

测序的过程是边合成边测序的。在加入正向 adapter 的对应引物后,加入经过处理后的 ATCG,使其进行合成,在合成的过程中收集信号。ATCG 经过的处理有:其一是核苷酸的 3‘ 位置加入叠氮基团,以使每次反应序列只增长一个碱基;其次是对核苷酸进行荧光标记。该过程则是:序列增长一个碱基,激发荧光;收集荧光信号;加入试剂后洗脱;如此循环。加入试剂的作用有两点,其一是把叠氮基团去掉,使得 DNA 链可以继续延长;其二是切除荧光标记以防影响后续信号收集。

各代测序技术的比较

一代测序

一代测序采用的是 sanger 法测序,在DNA复制过程中采用单种染料特异标记的双脱氧核糖核酸作为原料,但该类核酸会终止延长反应;进而导致 DNA 的复制链长短不一、末端碱基则分别为对应的双脱氧核酸。在电泳后,长短不同的 DNA 电泳位置不同,携带染料不同,则被有效地鉴别出来。因为涉及到电泳鉴别,时间长,基本无法做到高通量。

二代测序

二代测序的基本原理是多分子、多克隆同时进行,荧光成像。可分为三类:Illumina、Roche 454、Ion Torrent。Illumina 将桥式 PCR、四色荧光可逆终止和激光扫描成像结合起来,DNA 每延长 1 个碱基成像一次,最终根据成像荧光颜色获得 DNA 序列;它能测量同聚物的准确长度;但其读长较短(200-500bp,这是因为测序过程中由测序不同步产生的杂信号越来越多、酶活性也越来越不稳定造成)。Roche 454 则使用油包水 PCR、dNTP 轮番使用、焦磷酸水平发光的原理进行测序;其平均测序长度达 400bp,但它无法准确检测多聚物的个数,会引入插入和缺失。Ion Torrent 则是将 Roche 454 的焦磷酸测序更改为微电极 pH 检测,无需发光成像检测,检测体积小、简单、时间短;但其通量无法与前二者相比,适合小基因组和外显子验证测序。

三代测序

三代测序保持了测序速度和通量,并使读长大幅度上升,可达 1000bp 以上,它不用进行 PCR 扩增,基于单分子测序,目前有三类:Oxford nanopore、PacBio SMRT和Helicosope。Oxford 的测序是基于纳米孔内的分子接头,当碱基通过纳米孔时,孔内的电荷环境发生变化,分子接头可捕获电流强度的变化,进而得到碱基组成;其读长一般在几十 kb,30x 人类基因组在一天左右完成,保持输入 DNA 的完整性,还可直接测序 RNA;但其错误率较高。PacBio 采用的是纳米孔和荧光可逆终止 dNTP 技术,活性久高保真的聚合酶大大提高了边合成边测序的读长,可达 10kb,但它同样具有较高的随机错误率。Heliscope 基于边合成边测序的思想,将 DNA 随机打断成小片段分别进行 dNTP 荧光标记,经过不断地重复合成、洗脱、成像、淬灭过程完成测序。

相关 FAQ

1. GC bias 的影响

由于GC的含量多少会影响PCR过程的偏好性(PCR bias),从而会导致某些原始 DNA 序列不被扩增或者扩增减少,这些序列可能会无法测序到。

2. read length 和insert size 的选择

首先我们要明白的是,read length 是测序仪的测序长度,也就是读长;而 insert size 是指构建文库时 DNA 被打断后的大小(文库片段大小);而 fragment size 是片段加上了 adapter 后的大小。一般来说,这二者是相适应协调的。例如进行 denovo 拼接的话,我们应当优先选用小片段文库,然后逐渐提高。而在进行 RNA-seq 时,我们应该选择较小的文库,较低的读长以保证准确性。

3. 为何 Illumina 只能测 150bp?

这是因为随着反应的进行,反应底物减少、酶的活性降低,DNA 扩增时的准确性降低,杂信号会越来越多。
Phasing:酶活性不行了。。。
Pre-phasing:叠氮基团没发挥作用。

4. adapter,barcode,index 的作用

adapter 的作用有二:一是将文库片段与 flowcell 上的锚点固定;二是作为桥式 PCR 的扩增引物。在建库过程中,基本顺序是 adapter1-Index-fragment-adapter2,而 adapter2 则与 flowcell 上的锚点 oligoDT 互补结合。桥式 PCR 之后的测序,所用 primer 的序列是与 Index 互补的而非 adapter1 。
由于二代测序一次上机可得到约 30G 的数据,而通常一个样品测序数据量不需要那么多,所以会把多个样品混杂在一起测序(混池测序), index/barcode 就是用于区分不同样品的标签序列。

5. adapter的获取

Illumina: https://support.illumina.com/downloads/illumina-customer-sequence-letter.html
cutadapt软件内置
trimmomatic内置

6.测序深度与覆盖度的区别

测序深度: 在测序后,指定区域得到的测序碱基数目除以该区域的碱基长度就是测序深度.就拿人的全基因组测序来讲,它的大小是30亿的碱基长度(3G),而测序得到了8.9亿条的150bp的reads.那么平均测序深度就是8.9亿*150/30亿=45,简称45x.
覆盖度:在测序后,测序获得的序列占整个基因组或指定区域的比例.由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。

7.各种组

外显子组, exome, 是指真核生物基因组中全部外显子区域的总和,包含了蛋白质合成最直接的信息。外显子 组测序(Exome-seq)是利用设计好的探针试剂盒将坐标已知的全基因组外显子区域的 DNA 捕捉并富集后,进行高通量测序的基因组分析方法。 对于人类基因组来说,外显子区域大概占到基因组的1%,大概在 30M 左右.一般全外显子测序的测序深度为 50X~200X.

转录组, RNA-seq, 是指在相同环境(或生理条件)下的在一个细胞、或一群细胞中所能转录出的所有RNA的总和,包括信 使RNA(mRNA)、核糖体 RNA(rRNA)、转运 RNA(tRNA)及非编码 RNA。转录组测序(RNA-seq)是将提取所要研究的特定类型的 RNA,将其反转录成 cDNA,利用高通量测序技术获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息。

染色质免疫共沉淀, CHIP-seq, 主要用于蛋白质与 DNA 相互作用研究,采用特异抗体对目的蛋白进行免疫沉淀,分离与目的蛋白结合的基因组DNA片段,对其进行纯化和文库构建,再通过高通量测序的方法,在全基因组范围内寻找目的蛋白的DNA结合位点,从而获得全基因组范围内与组蛋白、转录因子等互作的 DNA 片段信息。(与外显子测序不一样,不是通过设计好的探针来捕获序列的,而是通过特异的 RNApoly 酶、组蛋白、转录因子来捕获序列的,蛋白结合在哪里就捕获哪里。每做一次实验,换一个蛋白,所捕获的序列是不一样的。)因此其主要研究点——研究用不同组蛋白、转录因子等不同蛋白来做不同的实验,找出互作的 DNA 序列的不同。

参考

各种组

Comments