一、基本概念
annovar是一个用于注释基因组变异信息的工具,它可以将人类基因组参考数据库中的基因注释信息与样本中检测到的变异信息进行比对。
annovar最初基于perl语言开发,并集成了数十个公共基因组注释数据库,包括refGene、ensGene、clinvar、dbSNP等,支持多种变异类型(包括SNVs、indels、CNVs、结构变异等)的注释,并能够在不同物种之间切换。
annovar的输入格式支持多种文件,包括vcf、bed、txt、maf等,输出格式包括文本、CSV等,使用非常灵活方便。
二、安装指南
annovar的安装非常简单,只需在https://annovar.openbioinformatics.org/en/latest/user-guide/download/页面下载最新版本源码包,解压后进入目录,执行perl命令即可:
tar xvfz annovar.latest.tar.gz cd annovar perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/
上述命令下载并安装了hg19版本的参考基因组数据库以及其他公共数据库,humandb目录中存放了各种数据库文件和索引文件,现在就可以开始注释基因变异了。
三、输入格式
annovar支持多种输入格式,包括vcf、bed、txt、maf等,下面以vcf格式为例进行说明:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE 22 17072140 . C T PASS . AC=1;AF=0.5;AN=2;DP=9;ExcessHet=3.0103;FS=0;MLEAC=1;MLEAF=0.5;MQ=60;QD=30;SOR=0.693 GT:AD:DP:GQ:PL 0/1:5,4:9:99:143,0,104
vcf文件的每一行代表一个变异位点,第一列是染色体号,第二列是位置,第三列是变异位点ID,第四列是参考序列,第五列是变异后的序列,后面的列是各种变异信息的注释。
四、输出格式
annovar的输出格式非常灵活,包括文本、CSV、VCF等,可以直接在终端查看,也可以写文件保存。下面是一个样例输出:
Chr Start End Ref Alt Func.refGene Gene.refGene GeneDetail.refGene ExonicFunc.refGene AAChange.refGene PopFreqMax 1000G_ALL.. 1000G_AFR.. 1000G_AMR.. 1000G_ASJ.. 1000G_EUR.. ESP6500_ALL.. ESP6500_AA.. ESP6500_EA.. avsnp147 SIFT_score SIFT_pred Polyphen2_HDIV_score Polyphen2_HDIV_pred Polyphen2_HVAR_score Polyphen2_HVAR_pred LRT_score LRT_pred MutationTaster_score MutationTaster_pred MutationAssessor_score MutationAssessor_pred FATHMM_score FATHMM_pred RadialSVM_score RadialSVM_pred LR_score LR_pred VEST3_score CADD_raw CADD_phred GERP_RS R PhyloP46way PhyloP100way SiPhy_29way_logOdds COSMIC_CNT Mutation_Assessor RuCa_CNT ExAC_ALL ExAC_AFR ExAC_AMR ExAC_EAS ExAC_FIN ExAC_NFE ExAC_OTH ExAC_SAS clinvar_20160302 Interpro_domain annovar_annotation 22 17072140 17072140 C T exonic PHKG2 . nonsynonymous SNVs PHKG2:NM_201597:exon3:c.214G>A:p.Gly72Ser&NM_001134077:exon5:c.305G>A:p.Gly102Ser 0.002854 . . . . . 0.0008241 . . rs136086422 0.13 T 0.983 B 0.003 B 0.953 D 0.3103 A 0.9807 D 0.0003 D 0.0026 D 0.4608 D 0.0001 D 2.15448 18.8 -0.01 -0.53 8.67 2.4279713841541886 . . . . benign(1);benign(1);benign(1);benign(1); . Annotation of gene mutations
输出结果包括各种常见数据库注释信息、功能预测信息、变异频率信息、临床意义等,信息非常齐全。
五、常用参数
annovar提供了大量的参数,用于控制注释的层次和细节,下面列举一些常用的参数:
1. -protocol: 指定注释的数据库,可以同时指定多个,以逗号分隔。
2. -operation: 指定注释的操作,包括g、f、r、c四种,分别表示基因级别注释、区域级别注释、区间重注释、合并重复注释。
3. -buildver: 指定参考基因组版本,包括hg18、hg19、hg38等。
4. -splicing_threshold: 指定剪切区域内变异的影响程度,可以是Exonic、Splicing或Intron等。
5. -vcfinput: 指定输入文件格式为vcf,可省略。
下面是一个示例代码:
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ perl table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 -out myanno -remove -protocol refGene,dbnsfp35a -operation g,f -nastring . -csvout -polish -xreffile humandb/gene_fullxref.txt -v
六、注意事项
使用annovar注释工具时需要注意以下事项:
1. 数据库更新:annovar内置的数据库没有定期更新,需要在使用前手动下载最新数据。
2. 数据库选择:需要根据研究对象和研究目的选择合适的数据库。
3. 重复注释:如果输入位点包含重复变异信息,可以使用merged.vcf文件合并,并将合并后的文件重新输入注释,避免结果错误。
七、结语
annovar是一个功能强大、使用灵活的基因组变异注释工具,可以很好地辅助基因组学与生物信息学研究,帮助我们更深入地理解人类基因组和基因变异的意义。