一、Pathview简介
Pathview是一款在Metabolomics, proteomics, transcriptomics, genomics等领域可视化通路及基因表达的R/Bioconductor程序包。它主要用于在Whole Pathway Network(WPN)通路图中展示差异表达基因、代谢物或蛋白质等。Pathview包含两个主要部分:pathviewGraph和odbcGraph,可以实现基于图形的跨平台、多元化的生物通路数据分析。
Pathview独特的特点在于它全面支持多种生物通路数据,比如Kanehisa的KEGG和Reactome等以及MetaCyc、PlantCyc和BioCyc等其他一些免费的生物学通路库。此外,Pathview还支持用户自定义通路组装等功能。
二、Pathview的应用
1. 数据准备
为了使用Pathview,我们应该先准备好符合条件的数据。Pathview需要基础的生物通路信息,例如通路基因、代谢物及反应信息(.gpml 或 .xml)等。同时设计基因表达数据,其格式可以为txt或csv。基因ID或名称需与通路图上列出的信息一致。以下是一个示例代码:
library(pathview) # 下载数据 urlfile <- "http://pathview.uncc.edu/data/" pwdata("KEGGregistry.Rdata.f", "human.corrset.p") # 导入数据 kegg <- system.file("extdata/kegg", package="pathview") map <- system.file("extdata/corr", package="pathview") data(pwdata, package="pathview") kegg.genes <- read.csv(file.path(kegg, "gList.gmt"), sep='\t', stringsAsFactors=FALSE) # 找到位于hsa04110上的基因 leads <- kegg.genes[ grep( "^hsa04110", kegg.genes[, 2] ), 1 ] # 下载该基因组状况 pw <- params2Data("pathview",x='hsa04110', species='hsa', gene.data='human.corrset.p', gene.id.type="symbol", id.input=leads) # 计算富集解析度(enrichment resolution) resfold <- 1.5 resadj <- "bon" cw <- pw2graph(pw, pathway.id=TRUE) cglst <- allGeneView(cw, pw, res.fold=resfold, res.adjust=resadj, graph.context="KEGG") write.table(cglst, "hsa04110.gene.list.txt", quote=FALSE, col.names=NA)
2. 绘图和编辑
接下来,我们可以根据前面准备好的数据利用Pathview进行绘图。这里用hsa04110通路为例,代码如下:
library(pathview) # 下载数据 urlfile <- "http://pathview.uncc.edu/data/" pwdata("KEGGregistry.Rdata.f", "human.corrset.p") # 导入数据 kegg <- system.file("extdata/kegg", package="pathview") map <- system.file("extdata/corr", package="pathview") data(pwdata, package="pathview") kegg.genes <- read.csv(file.path(kegg, "gList.gmt"), sep='\t', stringsAsFactors=FALSE) # 确定数据的文件路径 data.dir <- "D:/GEO/pathview/input/" out.dir <- "D:/GEO/pathview/output/" # 生成图形 mapfile <- file.path(kegg, "hsa04110.xml") datafile <- file.path(data.dir, "hsa04110.gene.data.txt") outfile <- file.path(out.dir, "hsa04110.pathview.png") pathview(gene.data=datafile, pathway.id='hsa04110', species='hsa', mapfile=mapfile, outfile=outfile, kegg.native=TRUE)
3. 结果解读
当绘图完成后,我们需要对结果进行解读。图例中黑色表示差异表达的基因,其向上和向下的箭头分别表示上调和下调基因。Pathview的输出数据包括多个文件,其中最重要的为以下三个文件:
- gene.data
- pathview.gpml
- pathview.png
gene.data文件提供了所有差异表达基因信息。pathview.gpml是一个通路文件,展示了整个通路和基因。pathview.png是可视化图像。
三、Pathview的优缺点
1. 优点
Pathview的优点如下:
- 提供了丰富的生物信息,包括50多个物种的KEGG通路和其他常用通路库。
- 与多种数据源(如RNA-seq和microarray数据)兼容。
- 支持用户自定义通路和数据。
- 生成高质量、美观的图形。
- 提供了丰富的结果解读。
2. 缺点
Pathview的缺点如下:
- 有些功能需要先搭建WPN数据库才能使用,因此初学者可能需要更多时间了解和学习。
- 对于一些特殊的应用,可能需要自行修改软件实现。
四、总结
Pathview是一款可靠且易用的生物通路分析工具,可帮助用户检测差异表达基因,代谢物或蛋白质在通路图中的变化。通过提供丰富的生物信息,Pathview有望成为研究生物信息学、代谢组学和蛋白质组学的人士的得力助手。