您的位置:

blastn在生物信息学中的应用

一、blastn基本介绍

BLAST(Basic Local Alignment Search Tool)是一种生物信息学常用的序列比对工具。可用于在数据库中搜索与给定序列相似的序列。blastn是其中一种,是基于nucleotide sequences进行比对。

blastn算法的核心是比对scoring system,即计算query和database sequence的相似度。blastn算法计算相似度的方式是通过计算query和database sequence里面的每个nucleotide pair的相似度,得到一个总的相似度score。比对结果可以根据score排序。

二、blastn在基因组学研究中的应用

1、基因注释

blastn可以用于基因组注释,通过将未知基因序列与已知基因组对比,从而确定未知基因的位置和功能信息。


# 将未知基因序列,比对到已知基因组上,得到比对结果
blastn -query unknown_gene.fasta -db reference_genome -out result.txt

2、SNP变异检测

blastn可以用于检测SNP(single nucleotide polymorphisms)变异,输入变异位点序列和基因组序列,使用blastn进行比对。比对结果中可以找到SNP变异的位置。


# 将变异位点序列和基因组序列,比对得到相似度高的位置
blastn -query snp.fasta -subject genome.fasta -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > result.txt

三、blastn在基因表达谱分析中的应用

1、转录本注释

blastn可以将已知基因的cDNA序列与基因组,进行比对从而注释出转录本,如找到剪切异构体(splice variants)或者完成发育过程中的转录本。


# 将已知cDNA序列,比对到基因组上,得到剪切异构体序列
blastn -query cDNA_sequence.fasta -db reference_genome -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > splice_variants.txt

2、表达量定量

blastn可以对测序数据进行比对,来进行转录本表达量定量。通过将reads与转录本之间进行比对,量化不同转录本在不同样本中的表达量,从而研究基因的表达谱。


# 将RNA-Seq数据比对到转录本上,得到表达量
blastn -query RNASeq_reads.fasta -db transcriptome.fasta -outfmt "6 sseqid qstart qend" > expression_level.txt

四、blastn在蛋白质结构预测中的应用

blastn还可以在蛋白质结构预测中的应用,通过比对蛋白质序列和蛋白质数据库,得到相似蛋白质序列。在相似蛋白质上预测蛋白质的结构等信息。


# 将蛋白质序列比对到蛋白质数据库中,得到相似蛋白质
blastn -query protein.fasta -db protein_database -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > similar_proteins.txt

五、blastn的使用注意事项

1、序列选择

blastn需要比对两个序列,query和database sequence。为了准确比对得到结果,需要根据不同研究问题选择相应的序列。比如在基因注释中,选择未知基因序列和已知基因组作为query和database sequence;在表达量定量中,选择RNA-Seq reads和转录本作为query和database sequence。

2、参数设置

blastn的参数调整对结果影响很大,需要根据研究问题和实验数据进行合适的参数设置。比如在SNP变异检测中,需要选择合适的e-value和score threshold。

3、结果解释

blastn的结果需要仔细解释,包括比对位置、相似度得分、基因注释结果、转录本定量表达结果等。需要根据具体的研究问题和实验要求进行结果的解释。