一、Annovar使用
Annovar是一个广泛使用的基因注释分析工具,可用于处理各种生物信息学应用。简单来说,使用Annovar可以轻松地将基因变异的信息与现有的数据库进行比较,以获得有关该变异可能影响哪些基因的预测。Annovar内置许多流行的数据库(例如dbSNP,1000基因组计划等),可用于基因变异的注释。 Annovar的使用有几个步骤:准备输入数据,选择参考基因组,运行注释程序,查看注释结果。在这里,我们将演示如何使用Annovar对一个VCF文件进行注释处理。 首先,请确保您已安装Annovar,并从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载最新版本。接下来,我们需要准备输入数据。在本示例中,我们将使用包含一些基因变异信息的VCF文件。以下是输入文件的示例内容:
#CHROM POS ID REF ALT QUAL FILTER INFO
chr1 880459 . T C 50.0 . .
chr1 880766 . C A 50.0 . .
chr1 937262 . T C 50.0 . .
chr1 937363 . G A 50.0 . .
然后,我们需要选择参考基因组。例如,如果您正在处理人类基因组数据,则可以将参考基因组设置为hg19,这是Annovar中最常用的参考基因组之一。在命令行中运行以下命令即可:
annotate_variation.pl -buildver hg19 input.vcf humandb/
最后,我们运行注释程序,并查看注释结果。运行以下命令:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在此示例中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。这些操作标志表示gene-based(g)或functional(f)注释。输出结果将存储在output.hg19_multianno.txt文件中。
二、Annovar注释vcf
VCF是一种存储基因组变异信息的常见格式。使用Annovar可以轻松地将该格式的输入文件进行注释。以下是注释VCF文件的示例命令:
annotate_variation.pl -buildver hg19 input.vcf humandb/
在这个例子中,我们使用hg19作为参考基因组,并将输入文件名设置为input.vcf。注释结果将存储在同一目录中的.input.vcf.hg19_multianno.txt文件中。
三、Annovar怎么读
Annovar可以从命令行或脚本中使用,其操作非常简单。您只需要正确设置参考基因组和协议参数即可。以下是一个例子:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在这个例子中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。输出结果将存储在output.hg19_multianno.txt文件中。
四、Annovar注释结果
Annovar注释结果通常存储在一个文本文件中,其中每行表示一个输入变异的注释,包括变异的位置、参考和替代碱基、注释协议和其相应的注释结果。以下是一个注释结果文件的示例:
Chr Start End Ref Alt Func.refGene Gene.refGene ExonicFunc.refGene 1000g2015aug_all avsnp144 SIFT_score SIFT_pred Polyphen2_HDIV_score Polyphen2_HDIV_pred Polyphen2_HVAR_score Polyphen2_HVAR_pred LRT_score LRT_pred MutationTaster_score MutationTaster_pred MetaSVM_score MetaSVM_pred MetaLR_score MetaLR_pred VEST3_score CADD_raw CADD_phred DANN_score fathmmMKL_coding_score fathmmMKL_coding_pred fathmmMKL_noncoding_score fathmmMKL_noncoding_pred Eigen_coding_or_noncoding Eigen_raw Eigen_phred GenoCanyon_score Integrated_fitCons_score integrated_confidence_value score_interpretation GERP++_RS phyloP100way_vertebrate phyloP30way_mammalian phastCons100way_vertebrate phastCons30way_mammalian SiPhy_29way_logOdds
chr1 10177 10177 A ACCCTAACCTAACTCC intronic DDX11L1 . . rs750505245 . . . . . . . . . . . . . . . . . . . . . . . 1.24 3.61 1.00 0.990 -1.04 0.375 4.69 D 1.00 D -0.10 20.70 0.992070 . . Neutral 5.43 2.98 0.911773 0.979 17.20
chr1 10235 10235 T A exonic DDX11L1 nonsynonymous_SNV . rs118078859 0.04 T 0.013 B 0.000 B 0.00 N 1.000 N -0.122 A -0.098 A 0.4198 14.10 0.987 . . Neutral 5.37 2.69 0.474006 1.587 11.32
chr1 10352 10352 G A exonic DDX11L1 synonymous_SNV . rs3934834 . . . . . . . . . . . . . . . . . . . . . . . 1.77 4.62 0.624162 0.899 18.10
在此示例中,我们注释了三个基因变异,分别在Chr1的10177、10235和10352位点。每个变异都在不同的位置,氨基酸改变也不同。注释结果文件给出了该位置上所有可用数据库的注释。一些常见的注释包括ExonicFunc.refGene,SIFT_score和Polyphen2_HDIV_score,这些注释指示某些变异可能存在大的影响或生物学意义。
五、Annovar安装和Galaxy选取
Annovar可以在Linux、Mac OS X和Windows上运行。您可以从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载该工具的最新版本。安装非常简单,您只需要解压缩下载的文件,然后运行其中的任意一个Perl脚本即可。 Annovar还可以与Galaxy工作流程一起使用。Galaxy是一种适用于各种生物信息学分析的开放源代码平台。Galaxy为用户提供了一个图形用户界面和一些流行的软件包,可以轻松进行各种分析管道。以下是使用Galaxy进行Annovar分析的示例步骤: 1、打开Galaxy主页(https://usegalaxy.org/)。 2、上传您的VCF文件。 3、选择“Annovar”工具,然后打开它。 4、选择您的输入文件和要使用的数据库。 5、运行工具并查看结果。 在Galaxy中使用Annovar非常简单,具有极大的便利性和易于使用性。