您的位置:

详解annovar注释工具

一、基本概念

annovar是一个用于注释基因组变异信息的工具,它可以将人类基因组参考数据库中的基因注释信息与样本中检测到的变异信息进行比对。

annovar最初基于perl语言开发,并集成了数十个公共基因组注释数据库,包括refGene、ensGene、clinvar、dbSNP等,支持多种变异类型(包括SNVs、indels、CNVs、结构变异等)的注释,并能够在不同物种之间切换。

annovar的输入格式支持多种文件,包括vcf、bed、txt、maf等,输出格式包括文本、CSV等,使用非常灵活方便。

二、安装指南

annovar的安装非常简单,只需在https://annovar.openbioinformatics.org/en/latest/user-guide/download/页面下载最新版本源码包,解压后进入目录,执行perl命令即可:

tar xvfz annovar.latest.tar.gz
cd annovar
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/

上述命令下载并安装了hg19版本的参考基因组数据库以及其他公共数据库,humandb目录中存放了各种数据库文件和索引文件,现在就可以开始注释基因变异了。

三、输入格式

annovar支持多种输入格式,包括vcf、bed、txt、maf等,下面以vcf格式为例进行说明:

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  SAMPLE
22      17072140        .       C       T       PASS    .       AC=1;AF=0.5;AN=2;DP=9;ExcessHet=3.0103;FS=0;MLEAC=1;MLEAF=0.5;MQ=60;QD=30;SOR=0.693     GT:AD:DP:GQ:PL  0/1:5,4:9:99:143,0,104

vcf文件的每一行代表一个变异位点,第一列是染色体号,第二列是位置,第三列是变异位点ID,第四列是参考序列,第五列是变异后的序列,后面的列是各种变异信息的注释。

四、输出格式

annovar的输出格式非常灵活,包括文本、CSV、VCF等,可以直接在终端查看,也可以写文件保存。下面是一个样例输出:

Chr     Start   End     Ref     Alt     Func.refGene    Gene.refGene    GeneDetail.refGene      ExonicFunc.refGene      AAChange.refGene        PopFreqMax      1000G_ALL..    1000G_AFR..    1000G_AMR..    1000G_ASJ..    1000G_EUR..    ESP6500_ALL..   ESP6500_AA..    ESP6500_EA..    avsnp147        SIFT_score      SIFT_pred       Polyphen2_HDIV_score    Polyphen2_HDIV_pred     Polyphen2_HVAR_score    Polyphen2_HVAR_pred     LRT_score       LRT_pred        MutationTaster_score    MutationTaster_pred     MutationAssessor_score  MutationAssessor_pred   FATHMM_score    FATHMM_pred     RadialSVM_score RadialSVM_pred  LR_score        LR_pred        VEST3_score     CADD_raw        CADD_phred      GERP_RS R       PhyloP46way     PhyloP100way    SiPhy_29way_logOdds     COSMIC_CNT      Mutation_Assessor       RuCa_CNT        ExAC_ALL        ExAC_AFR        ExAC_AMR        ExAC_EAS        ExAC_FIN        ExAC_NFE        ExAC_OTH        ExAC_SAS        clinvar_20160302        Interpro_domain annovar_annotation
22      17072140        17072140        C       T       exonic  PHKG2   .       nonsynonymous SNVs     PHKG2:NM_201597:exon3:c.214G>A:p.Gly72Ser&NM_001134077:exon5:c.305G>A:p.Gly102Ser  0.002854        .       .       .       .       .       0.0008241       .       .       rs136086422     0.13    T       0.983   B   0.003   B   0.953   D   0.3103  A   0.9807  D   0.0003  D   0.0026  D   0.4608  D   0.0001  D   2.15448 18.8    -0.01   -0.53   8.67    2.4279713841541886      .       .       .       .       benign(1);benign(1);benign(1);benign(1); .       Annotation of gene mutations 

输出结果包括各种常见数据库注释信息、功能预测信息、变异频率信息、临床意义等,信息非常齐全。

五、常用参数

annovar提供了大量的参数,用于控制注释的层次和细节,下面列举一些常用的参数:

1. -protocol: 指定注释的数据库,可以同时指定多个,以逗号分隔。

2. -operation: 指定注释的操作,包括g、f、r、c四种,分别表示基因级别注释、区域级别注释、区间重注释、合并重复注释。

3. -buildver: 指定参考基因组版本,包括hg18、hg19、hg38等。

4. -splicing_threshold: 指定剪切区域内变异的影响程度,可以是Exonic、Splicing或Intron等。

5. -vcfinput: 指定输入文件格式为vcf,可省略。

下面是一个示例代码:

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 
-out myanno -remove -protocol refGene,dbnsfp35a -operation g,f -nastring . 
-csvout -polish -xreffile humandb/gene_fullxref.txt -v

六、注意事项

使用annovar注释工具时需要注意以下事项:

1. 数据库更新:annovar内置的数据库没有定期更新,需要在使用前手动下载最新数据。

2. 数据库选择:需要根据研究对象和研究目的选择合适的数据库。

3. 重复注释:如果输入位点包含重复变异信息,可以使用merged.vcf文件合并,并将合并后的文件重新输入注释,避免结果错误。

七、结语

annovar是一个功能强大、使用灵活的基因组变异注释工具,可以很好地辅助基因组学与生物信息学研究,帮助我们更深入地理解人类基因组和基因变异的意义。