一、概述
tsinfer是一个基于Python编写的有效的序列基因型推断工具,可帮助研究人员在人类群体中推断个体的基因型,以便更深入地理解人类遗传变异的性质和行为。tsinfer的核心思想是基于"直接似然推断",该方法利用贝叶斯统计学和HMM来推断祖先间的遗传关系,这使得(tsinfer)成为了目前速度和准确性最好的基因型推断软件之一。
二、tsinfer的功能特性
1、支持基于测序数据的直接推断,使其在大规模基因组学项目中特别有用;
2、作为一种基于单倍型的推断方法,tsinfer可以处理仅使用 SNPs 测序数据的复杂样本,并可以更好地处理极端情况;
3、可以使用tsbeagle提供的结果来进行极高质量的复测,精度达到或优于同类工具。
三、tsinfer的工作原理
tsinfer使用基于隐马尔可夫模型的算法,以最大化给定的序列数据与生成基因信息的祖先单倍型的可能性。该算法可以被形式化地描述为以下过程:
1、根据序列数据,对单倍型进行组合,得到遗传变异层次;
2、使用“前向-后向”算法获得祖先单倍型的可能性,从而估算基因史实例中世代间基因传递的概率分布;
3、通过递归启发式地执行基于祖先遗传结构的全局排除单倍子体算法,来构建单倍型树,该算法的目的是最小化叶节点中最小异质型数的数量;
4、使用标准化嵌入 (Canonical Embedding) 的算法来生成实际的遗传关系树。
四、tsinfer的使用举例
下面是一个演示tsinfer用于humpback whale的个体推断的的示例:
import tsinfer
import tsdate
import tskit
#载入whale的多个vcf文件
vcfs = ["1.vcf.gz", "2.vcf.gz", "3.vcf.gz", "4.vcf.gz"]
samples_file = "samples.txt"
#从VCF数据中创建tskit基础数据
callsets = tsinfer.load(vcfs, ploidy=2)
ts = tsinfer.match_samples(callsets, samples_file)
#使用tsinfer执行单倍型推断
samples = tsinfer.formats.convert_msprime_to_sample_data(ts)
inferred_ts = tsinfer.infer(samples, num_threads=4)
#推断真实时间表;需要tsdate
tsdate.infer(inferred_ts, Ne=1000, mutation_rate=1e-8)
五、结语
本文简要介绍了tsinfer的功能特性、工作原理以及一个简单的Python演示,这只是tsinfer工具的冰山一角,更多功能特性的实现需要确定的数据输入和实验流程。如果你有相关的基因型推断需求,tsinfer肯定是你不错的选择。