现代及古代人类基因组序列表征可揭示人类进化历程中未知的特征。基因组数据库的不断扩大有助于实现对进化更深入的理解。但是,样本采集、分析手段的差异导致基因组数据库中既包含真正的基因变异,又包含复杂的缺失与错误。因此,基因组数据库具有高度异质性。如何从该高度异质的基因组数据中更全面了解人类进化过程成为当前重要挑战之一。

近日,英国牛津大学研究团队在《Science》杂志上发表题为“A unified genealogy of modern and ancient genomes”的文章,建成目前最详细的人类遗传谱系之一,揭示世界各地个体如何相互关联。

研究团队采用树序列(tree sequences)描述人类祖先基因关系,通过对树结构的估计整合不同基因数据集并深入了解人类遗传多样性。研究团队利用非参数统计方法推断现代及古代人类基因样本的统一谱系,通过计算机仿真和经验数据分析共同验证非参数统计方法有效性,并应用非参数统计方法揭示人类遗传多样性和进化特征。该研究通过整合不同数据库的现代和古代人类基因组数据,建成了目前最详细的人类遗传图谱。在样本基因组信息基础上添加位置数据信息后,该研究团队使用非参数估计器预测共同祖先居住地,成功重现了人类进化史上的关键事件,如走出非洲。该基本方法可在医学研究中得到广泛的应用,例如确定疾病风险的遗传预测因素。

过去二十年来,人类基因研究取得了非凡的进展,产生了数十万人的基因组数据,包括来自成千上万的史前人类。这带来了一种令人兴奋的可能性,即追踪人类遗传多样性的起源,以产生一个完整的关于世界各地的个人如何相互关联的地图。

到目前为止,这一愿景的主要挑战是找出一种方法来结合来自许多不同数据库的基因组序列,并开发出处理这种规模数据的算法。然而,牛津大学大数据研究所的研究人员周四发表的一种新方法可以很容易地结合来自多个来源的数据,并可扩展到容纳数百万的基因组序列。

该研究表明全基因组谱系为研究人类历史和进化提供了一个强大平台。

推荐内容