2018-11-02
数据处理 dplyr

以前就看过一些 dplyr 的使用,记得当初说是和 tplyr,reshape2 并称 R 数据处理三剑客,想想和 web 开发的 HTML,JavaScript,CSS 的三剑客有些类似。这两天又在《R 数据科学》看到 dplyr 的使用,还挺详细的。现在把书里的相关用法记录在此,刚好也把书上的习题在这里做个回答,以加强使用。

Read More

2018-11-02
可视化 ggplot2入门

久闻 ggplot2 大名,它的出图也在各个生信分析包中随处可见。今天恰好买来的新书《R 数据科学》里面有讲解,遂随着它一起学习一下,也将以前的相关学习一齐记录于此。

Read More

2018-10-28
可变剪切 rMATS和rmats2sashimiplot

安装

environment: py2.7.x

  • rMATs
1
2
3
4
5
6
7
8
9
10
# in linux
wget http://rnaseq-mats.sourceforge.net/rMATS.4.0.2.tgz

# check version to use, in python
import sys
print sys.maxunicode
# 1114111: rMATS-turbo-xxx-UCS4
# 65535: rMATS-turbo-xxx-UCS2

"path/to/rMATs-turbo-xxx-UCS{x}/rMATS.py"
Read More

2018-10-15
扩增子测序 QIIME2使用示例

如果数据来源是分批次的话,需要分别导入,在去噪和生成特征表之后,把这些表进行合并,再进行后续分析。也就是说 1-3 对于分批次数据要分批次跑。

Read More

2018-10-15
扩增子测序 QIIME2

1 qiime2中数据的导入与导出

在QIIME2中,所有的输入数据都是以qiime2 artifacts的格式(.qza)存在,该格式有利于数据传递和生成路径追踪。在QIIME2中,你可以在分析的各个阶段导入数据,不论是原始的测序数据,还是经过处理产生的中间数据(eg. biom),你都可以直接导入,接着进行后续分析。导入数据使用qiime tools import命令,你可以使用–show-importable-types和–show-importable-formats查看支持导入的数据类型,选择与你数据相应的导入类型。

你可以使用qiime tools export导出qiime的数据,用于R或者其他软件。这个命令与qiime tools extract命令的差别在于,导出命令只导出数据,与数据相关的生成追踪信息将被丢弃;但是提取命令不会,里面包含的provenance文件保存了这些追踪信息。

Read More

2018-10-15
扩增子测序 mothur使用示例

1 初始说明

  • 测序数据类型

Illumina Miseq paired-end reads

  • 实验设计

断奶后365天(dpw 365)的小鼠排泄物,比较初始10天(dpw 10)和中间10天(dpw140-150)的排泄物的微生物组的稳定性(肠道微生物组的变化情况)。为了简化操作,只用到一只小鼠的十个时间点(前5后5)的数据。这里还有模拟了由21种细菌组成的菌群的全基因组测序数据。先用小鼠的排泄物测序数据学习分析微生物群落,然后用模拟的菌落判断分析的错误率和它在其他分析中的作用。

  • 关于软件

mothur既提供交互模式(像python),也提供命令行模式;后者可以进行批量操作。

Read More

2018-10-15
扩增子测序 QIIME1

1 构建mapping file,并验证是否有误

mapping file记录着样品对应的barcode、primer、treatment group等信息,以tab作为列分割符。各列名如下:

column name Description
SampleID 样品名,数字、字母、点号
BarcodeSequence barcode序列,区分样本
LinkerPrimerSequence 5’端引物
ReversePrimerSequence 3’端反向引物,如果有的话
Treatment 分组信息
Description 样品详细注释
DOB 日期或其他信息

下机reads组成:AdapterA - BarcodeSequence - LinkerPrimerSequence - Target - ReversePrimer - AdapterB

Read More

2018-10-14
ChIP-seq专题 MACS2_ChIPSeeker_deeptools

ChIP-seq是使用抗体捕获富集DNA片段和高通量测序技术来获得某些marker与DNA的结合位点的一项综合技术。ChIP是染色质免疫共沉淀, 通过特异抗体将DNA结合蛋白免疫沉淀, 用于捕获蛋白质的DNA靶点, 比如转录因子啊, 组蛋白修饰啊. 它主要分为以下四步:cross-linking、sonication、IP、Sequencing。在DNA与蛋白交联以后, 通过超声的方式随机打断染色体, 在利用抗体将目的交联物筛选出来, 再反交联获取DNA,最后上机测序.获取到测序数据后,典型的分析流程如图.

ChIP分析流程

Read More

2018-10-14
基因组变异检测(Variance Calling with GATK)

一、基本概念

1.1 名词解释

  • 基因组:个体全部DNA序列的无重复集.这里的基因组不仅仅包含了基因在内,由于目前尚有许多DNA序列不编码蛋白,也可能不会转录,反正就是这些序列的功能还没有研究清楚, 这些序列也都包含在基因组这个范畴里面.
  • Reads:二代测序中的一个专有名词,表示着测序仪对某个DNA片段的一次测序结果,是该DNA序列的序列组成. 其长度依据测序仪不同而不同.
  • 变异:variants, 变异是一个相对的概念,产生于比较之中, 比较是指同耳熟能详的参考基因组相比较. 对于人类基因组的变异来讲,参考基因组是经过“人类基因组”计划测序所得到的最终人类基因组序列.
Read More

2018-10-12
GO_KEGG富集分析 clusterProfiler

首先呢,要详细了解的话,需要看这篇文献(Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges),他把基本的信号通路分析方法进行了总结.

Read More