您的位置:

tsinfer:有效的序列基因型推断工具

一、概述

tsinfer是一个基于Python编写的有效的序列基因型推断工具,可帮助研究人员在人类群体中推断个体的基因型,以便更深入地理解人类遗传变异的性质和行为。tsinfer的核心思想是基于"直接似然推断",该方法利用贝叶斯统计学和HMM来推断祖先间的遗传关系,这使得(tsinfer)成为了目前速度和准确性最好的基因型推断软件之一。

二、tsinfer的功能特性

1、支持基于测序数据的直接推断,使其在大规模基因组学项目中特别有用;

2、作为一种基于单倍型的推断方法,tsinfer可以处理仅使用 SNPs 测序数据的复杂样本,并可以更好地处理极端情况;

3、可以使用tsbeagle提供的结果来进行极高质量的复测,精度达到或优于同类工具。

三、tsinfer的工作原理

tsinfer使用基于隐马尔可夫模型的算法,以最大化给定的序列数据与生成基因信息的祖先单倍型的可能性。该算法可以被形式化地描述为以下过程:

1、根据序列数据,对单倍型进行组合,得到遗传变异层次;

2、使用“前向-后向”算法获得祖先单倍型的可能性,从而估算基因史实例中世代间基因传递的概率分布;

3、通过递归启发式地执行基于祖先遗传结构的全局排除单倍子体算法,来构建单倍型树,该算法的目的是最小化叶节点中最小异质型数的数量;

4、使用标准化嵌入 (Canonical Embedding) 的算法来生成实际的遗传关系树。

四、tsinfer的使用举例

下面是一个演示tsinfer用于humpback whale的个体推断的的示例:

import tsinfer
import tsdate
import tskit

#载入whale的多个vcf文件
vcfs = ["1.vcf.gz", "2.vcf.gz", "3.vcf.gz", "4.vcf.gz"]
samples_file = "samples.txt"

#从VCF数据中创建tskit基础数据
callsets = tsinfer.load(vcfs, ploidy=2)
ts = tsinfer.match_samples(callsets, samples_file)

#使用tsinfer执行单倍型推断
samples = tsinfer.formats.convert_msprime_to_sample_data(ts)
inferred_ts = tsinfer.infer(samples, num_threads=4)

#推断真实时间表;需要tsdate
tsdate.infer(inferred_ts, Ne=1000, mutation_rate=1e-8)

五、结语

本文简要介绍了tsinfer的功能特性、工作原理以及一个简单的Python演示,这只是tsinfer工具的冰山一角,更多功能特性的实现需要确定的数据输入和实验流程。如果你有相关的基因型推断需求,tsinfer肯定是你不错的选择。