2018-12-23
Seurat 与 Cellranger 之间互通的二三事

最近,在做单细胞测序的分析,出现了这么一个需求:Cellranger 中没有像 Seurat 一样进行单细胞数据中常见的几类质控,比如 nGene,nUMI, percent of mitochondria genes 等,因此对于 cellranger 得到的矩阵先要经过这类质控,再进行 cellranger analyze 的后续分析。本来 Cellranger 自己有进行后续的 Rkit 包进行分析,但由于第三方包的发展,这个包已经被废弃了。鉴于 Cellranger 主页自己推荐使用 Seurat 进行后续分析,我们也就选择了这个软件进行质控及后续分析。

Read More

2018-12-23
稀疏矩阵的表示法

Seurat 与 Cellranger 之间互通的二三事中,我们遇到了 dgTMatrixdgCMatrix 这两个稀疏矩阵的不同表示。先前不清楚的时候,在必应中搜索稀疏矩阵中,出现最多的文章就是诸如 《理解Compressed Sparse Column Format (CSC)》这一类文章,我就不吐槽 CSDN 了,唉。这也就说明了作为写代码的人,你为什么要去直接看英文的原始资料,因为你永远不知道,翻译资源的那个人英文水平怎么样,更别提他的技术水平了。我这里是为了记录自己的学习内容,目的是为了自己观看。如果有某位同学进来了,还是看英文资料比较好一点,放在 参考 中了,你可以自己查阅。

Read More

2018-11-02
数据处理 dplyr

以前就看过一些 dplyr 的使用,记得当初说是和 tplyr,reshape2 并称 R 数据处理三剑客,想想和 web 开发的 HTML,JavaScript,CSS 的三剑客有些类似。这两天又在《R 数据科学》看到 dplyr 的使用,还挺详细的。现在把书里的相关用法记录在此,刚好也把书上的习题在这里做个回答,以加强使用。

Read More

2018-11-02
可视化 ggplot2入门

久闻 ggplot2 大名,它的出图也在各个生信分析包中随处可见。今天恰好买来的新书《R 数据科学》里面有讲解,遂随着它一起学习一下,也将以前的相关学习一齐记录于此。

Read More

2018-10-28
流程构建 Snakemake使用初步

在学习生信的过程中,总是听说流程啊,管道啊,pipeline啊,到底这些意味着什么?你能把测序数据从ncbi下载下来,这不叫流程;你可以继续把数据做完质控,然后搞个比对,再做做什么差异分析啊、富集分析啊、各种类型数据的联合分析啊,这也不叫流程,谁知道你中间因为某个包安装用了多久的时间,谁晓得你这个过程是不是 reproducible 的?要是你中间出了问题怎么办,可控性如何?监控性如何?要是这些问题都能解答,我想就应该可以叫做一个流程了吧,流程化、自动化、可控化、高复用化。作为一个新人,要独自解决这些功能还是有些困难,肯定需要“假于物”的,恰好那天看到有个朋友说到用snakemake来些流程,哈哈,这不就有了,下面就说一说我初步学习使用的理解吧。

Read More

2018-10-28
可变剪切 rMATS和rmats2sashimiplot

安装

environment: py2.7.x

  • rMATs
1
2
3
4
5
6
7
8
9
10
# in linux
wget http://rnaseq-mats.sourceforge.net/rMATS.4.0.2.tgz

# check version to use, in python
import sys
print sys.maxunicode
# 1114111: rMATS-turbo-xxx-UCS4
# 65535: rMATS-turbo-xxx-UCS2

"path/to/rMATs-turbo-xxx-UCS{x}/rMATS.py"
Read More

2018-10-15
扩增子测序 QIIME1

1 构建mapping file,并验证是否有误

mapping file记录着样品对应的barcode、primer、treatment group等信息,以tab作为列分割符。各列名如下:

column name Description
SampleID 样品名,数字、字母、点号
BarcodeSequence barcode序列,区分样本
LinkerPrimerSequence 5’端引物
ReversePrimerSequence 3’端反向引物,如果有的话
Treatment 分组信息
Description 样品详细注释
DOB 日期或其他信息

下机reads组成:AdapterA - BarcodeSequence - LinkerPrimerSequence - Target - ReversePrimer - AdapterB

Read More

2018-10-15
扩增子测序 QIIME2使用示例

如果数据来源是分批次的话,需要分别导入,在去噪和生成特征表之后,把这些表进行合并,再进行后续分析。也就是说 1-3 对于分批次数据要分批次跑。

Read More

2018-10-15
扩增子测序 理论基础

一、 基础概念

microbiota, microbiome, metagenome

Read More

2018-10-15
扩增子测序 QIIME2

1 qiime2中数据的导入与导出

在QIIME2中,所有的输入数据都是以qiime2 artifacts的格式(.qza)存在,该格式有利于数据传递和生成路径追踪。在QIIME2中,你可以在分析的各个阶段导入数据,不论是原始的测序数据,还是经过处理产生的中间数据(eg. biom),你都可以直接导入,接着进行后续分析。导入数据使用qiime tools import命令,你可以使用–show-importable-types和–show-importable-formats查看支持导入的数据类型,选择与你数据相应的导入类型。

你可以使用qiime tools export导出qiime的数据,用于R或者其他软件。这个命令与qiime tools extract命令的差别在于,导出命令只导出数据,与数据相关的生成追踪信息将被丢弃;但是提取命令不会,里面包含的provenance文件保存了这些追踪信息。

Read More