一、chipseeker包
chipseeker是一款R语言包,为生物信息学家在ChIP-seq数据分析过程中提供了多种功能模块。它可以帮助你迅速解析染色质免疫沉淀(ChIP)数据,并对基因组进行注释。通过比较富集区域和基因组功能注释,可以推断哪些转录因子或其他因素在调控不同基因的表达中发挥作用。
#下载chipseeker包
source("https://bioconductor.org/biocLite.R")
biocLite("chipseeker")
library(chipseeker)
通过下载该包,即可在自己的R环境中使用chipseeker提供的功能。
二、chipseeker注释基因
对于富集区域进行基因注释是ChIP-seq数据分析中非常重要的一步。chipseeker可以帮助我们从多个数据库、UCSC(The University of California, Santa Cruz)基因组浏览器和Gene Ontology数据库中获得详细信息。
#注释基因
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, annoDb="org.Hs.eg.db", assignGenes=TRUE)
这里使用TxDb.Hsapiens.UCSC.hg19.knownGene数据库对富集区域进行基因注释,并将注释信息保存在peakAnno中。
三、chipseeker安装
安装chipseeker包非常简单,可以使用下列代码:
#安装chipseeker包
source("https://bioconductor.org/biocLite.R")
biocLite("chipseeker")
library(chipseeker)
同时安装各依赖包即可使用chipseeker的所有功能。
四、chipseeker与内含子
chipseeker还可以与内含子进行分析,帮助我们更好地解析在内含子流程中出现的差异。
#使用内含子分析功能
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, TxDb=txdb, annoDb="org.Hs.eg.db", region="intron")
这里通过region="intron"参数,将分析区域限制在内含子部分。
五、chipseeker注释
在使用chipseeker进行注释时,我们需要指定用于注释的数据库,可以使用下面的代码指定数据库:
#指定注释数据库
library(org.Mm.eg.db)
library(TxDb.Mmusculus.UCSC.mm10.knownGene)
txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, region="promoter", annotation="org.Mm.eg.db")
这里使用了org.Mm.eg.db这个数据库来进行注释。
六、chipseeker公司
chipseeker是由BGI公司开发的一款开源的生物信息学分析软件。BGI公司是全球领先的基因组学研究所,在基因组测序和生物大数据分析方面有着丰富的经验和技术。
七、chipseeker画热图
使用chipseeker可以很方便地画出ChIP-seq实验的热图,下面是画热图的代码示例:
library(ggplot2)
library(pheatmap)
data(genesymbol)
pheatmap(peakmatrix, show_rownames=FALSE, scale="row", cluster_cols=FALSE,
annotation_col=peakmatrixAnn, fontsize_row=6, fontsize_col=6)
这里使用了ggplot2和pheatmap两个包来画出热图,并将注释信息保存在peakmatrixAnn中。
八、chipseeker annotatePeak
annotatePeak是chipseeker中非常常用的一个函数,它可以从多个数据库中提取注释信息,并将这些信息进行整合。下面是annotatePeak函数的代码示例:
#使用annotatePeak函数
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, region="promoter", annotation="org.Hs.eg.db")
这里我们使用了TxDb.Hsapiens.UCSC.hg19.knownGene这个数据库,并将分析区域限定在启动子区域(region="promoter")。
九、chipseeker diffbind
diffbind是chipseeker中一种常见的分析技术,主要用于寻找左右样本之间的差异区域。下面是使用diffbind进行差异分析的代码示例:
#使用diffbind进行差异分析
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
method <- "DB"
peakObject <- dba(sampleSheet=data.frame(Group=factor(c(rep("Control", 2), rep("Treatment", 2))),
Tissue=factor(c(rep("Liver", 2), rep("Kidney", 2))), row.names=c("Ctl1", "Ctl2", "Trt1", "Trt2")),
peaks=peaks, bRetrieve=TRUE, peakCaller=method, genome="hg19", minQCth=50, minSeqDepth=1000000)
peakAnno <- annotatePeakInBatch(peakObject, AnnotationFeature="GeneRegionIdentifier", TxDb=txdb, annoDb="org.Hs.eg.db")
这里我们指定了TxDb.Hsapiens.UCSC.hg19.knownGene这个数据库,并使用了样本分组的信息来进行差异分析。
十、chipseeker intergenic选取
chipseeker还可以帮助我们从基因组中选取内含子区域,下面是选取内含子区域的代码示例:
#选取内含子区域
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
ivl <- gapBetweenTSS(txdb, upstream=3000, downstream=3000)
ivl
这里使用了TxDb.Hsapiens.UCSC.hg19.knownGene这个数据库,并将内含子区域保存在ivl中。
综上所述,chipseeker是一个非常优秀的ChIP-seq数据分析工具包,涵盖了从基因组注释到热图展示等多个方面的功能模块。使用chipseeker可以极大的提高ChIP-seq数据的分析效率和精度,为生物学研究提供了重要的支撑。