您的位置:

Annovar:基因注释分析工具

一、Annovar使用

Annovar是一个广泛使用的基因注释分析工具,可用于处理各种生物信息学应用。简单来说,使用Annovar可以轻松地将基因变异的信息与现有的数据库进行比较,以获得有关该变异可能影响哪些基因的预测。Annovar内置许多流行的数据库(例如dbSNP,1000基因组计划等),可用于基因变异的注释。 Annovar的使用有几个步骤:准备输入数据,选择参考基因组,运行注释程序,查看注释结果。在这里,我们将演示如何使用Annovar对一个VCF文件进行注释处理。 首先,请确保您已安装Annovar,并从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载最新版本。接下来,我们需要准备输入数据。在本示例中,我们将使用包含一些基因变异信息的VCF文件。以下是输入文件的示例内容:
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr1    880459  .       T       C       50.0    .       .
chr1    880766  .       C       A       50.0    .       .
chr1    937262  .       T       C       50.0    .       .
chr1    937363  .       G       A       50.0    .       .
然后,我们需要选择参考基因组。例如,如果您正在处理人类基因组数据,则可以将参考基因组设置为hg19,这是Annovar中最常用的参考基因组之一。在命令行中运行以下命令即可:
annotate_variation.pl -buildver hg19 input.vcf humandb/
最后,我们运行注释程序,并查看注释结果。运行以下命令:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在此示例中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。这些操作标志表示gene-based(g)或functional(f)注释。输出结果将存储在output.hg19_multianno.txt文件中。

二、Annovar注释vcf

VCF是一种存储基因组变异信息的常见格式。使用Annovar可以轻松地将该格式的输入文件进行注释。以下是注释VCF文件的示例命令:
annotate_variation.pl -buildver hg19 input.vcf humandb/
在这个例子中,我们使用hg19作为参考基因组,并将输入文件名设置为input.vcf。注释结果将存储在同一目录中的.input.vcf.hg19_multianno.txt文件中。

三、Annovar怎么读

Annovar可以从命令行或脚本中使用,其操作非常简单。您只需要正确设置参考基因组和协议参数即可。以下是一个例子:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在这个例子中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。输出结果将存储在output.hg19_multianno.txt文件中。

四、Annovar注释结果

Annovar注释结果通常存储在一个文本文件中,其中每行表示一个输入变异的注释,包括变异的位置、参考和替代碱基、注释协议和其相应的注释结果。以下是一个注释结果文件的示例:
Chr      Start    End      Ref   Alt           Func.refGene  Gene.refGene        ExonicFunc.refGene  1000g2015aug_all  avsnp144           SIFT_score  SIFT_pred  Polyphen2_HDIV_score  Polyphen2_HDIV_pred  Polyphen2_HVAR_score  Polyphen2_HVAR_pred  LRT_score  LRT_pred  MutationTaster_score  MutationTaster_pred  MetaSVM_score  MetaSVM_pred  MetaLR_score  MetaLR_pred  VEST3_score  CADD_raw  CADD_phred  DANN_score  fathmmMKL_coding_score  fathmmMKL_coding_pred  fathmmMKL_noncoding_score  fathmmMKL_noncoding_pred  Eigen_coding_or_noncoding  Eigen_raw      Eigen_phred      GenoCanyon_score      Integrated_fitCons_score  integrated_confidence_value score_interpretation    GERP++_RS  phyloP100way_vertebrate  phyloP30way_mammalian  phastCons100way_vertebrate  phastCons30way_mammalian  SiPhy_29way_logOdds
chr1     10177    10177    A     ACCCTAACCTAACTCC  intronic      DDX11L1            .                    .                 rs750505245        .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.24       3.61                     1.00                  0.990                  -1.04                 0.375               4.69           D           1.00                  D            -0.10        20.70        0.992070              .                         .                           Neutral                      5.43      2.98                   0.911773                  0.979                 17.20
chr1     10235    10235    T     A                exonic        DDX11L1            nonsynonymous_SNV   .                 rs118078859        0.04        T          0.013                B                    0.000                 B                    0.00       N           1.000                 N                   -0.122        A            -0.098        A          0.4198     14.10      0.987          .                         .                           Neutral                      5.37      2.69                  0.474006                   1.587                 11.32
chr1     10352    10352    G     A                exonic        DDX11L1            synonymous_SNV     .                 rs3934834          .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.77       4.62                   0.624162                  0.899                 18.10
在此示例中,我们注释了三个基因变异,分别在Chr1的10177、10235和10352位点。每个变异都在不同的位置,氨基酸改变也不同。注释结果文件给出了该位置上所有可用数据库的注释。一些常见的注释包括ExonicFunc.refGene,SIFT_score和Polyphen2_HDIV_score,这些注释指示某些变异可能存在大的影响或生物学意义。

五、Annovar安装和Galaxy选取

Annovar可以在Linux、Mac OS X和Windows上运行。您可以从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载该工具的最新版本。安装非常简单,您只需要解压缩下载的文件,然后运行其中的任意一个Perl脚本即可。 Annovar还可以与Galaxy工作流程一起使用。Galaxy是一种适用于各种生物信息学分析的开放源代码平台。Galaxy为用户提供了一个图形用户界面和一些流行的软件包,可以轻松进行各种分析管道。以下是使用Galaxy进行Annovar分析的示例步骤: 1、打开Galaxy主页(https://usegalaxy.org/)。 2、上传您的VCF文件。 3、选择“Annovar”工具,然后打开它。 4、选择您的输入文件和要使用的数据库。 5、运行工具并查看结果。 在Galaxy中使用Annovar非常简单,具有极大的便利性和易于使用性。