计算工具促进新的和改进的鸟类家谱的重建
一个国际科学家团队建立了迄今为止最大、最详细的鸟类家谱——这张复杂的图表描绘了 363 种鸟类(占所有鸟类家族的 92%)之间 9300 万年的进化关系。
这一进步在很大程度上要归功于加州大学圣地亚哥分校工程师开发的尖端计算方法,以及该大学圣地亚哥超级计算机中心最先进的超级计算资源。这些技术使研究人员能够高精度、快速地分析大量基因组数据,为构建有史以来最全面的鸟类家谱奠定了基础。
4 月 1 日发表在《自然》和《国家科学院院刊》(PNAS) 上的两篇补充论文详细介绍了这一进展。 《自然》杂志报道的更新后的家谱揭示了 6600 万年前恐龙灭绝的灾难性大灭绝事件之后鸟类进化史的模式。研究人员观察到早期鸟类的有效种群规模、替代率和相对大脑大小急剧增加,为这一关键事件之后推动鸟类多样化的适应机制提供了新的线索。在《美国国家科学院院刊》上发表的配套论文中,研究人员仔细检查了新家谱的一个分支,发现火烈鸟和鸽子的亲缘关系比之前的全基因组分析显示的亲缘关系更远。
这项工作是鸟类 10,000 个基因组 (B10K) 项目的一部分,该项目是由哥本哈根大学、浙江大学和加州大学圣地亚哥分校牵头的多机构努力,旨在为约 10,500 种现存鸟类生成基因组序列草案。
“我们的目标是重建所有鸟类的整个进化史,”加州大学圣地亚哥分校雅各布斯工程学院电气和计算机工程教授 Siavash Mirarab 说,他是《自然》论文的共同高级作者,也是PNAS论文的第一作者和共同通讯作者。
拼凑过去
这些研究的核心是一套名为 ASTRAL 的算法,Mirarab 的实验室开发了该算法,以前所未有的可扩展性、准确性和速度来推断进化关系。通过利用这些算法的力量,该团队整合了来自 60,000 多个基因组区域的基因组数据,为他们的分析提供了坚实的统计基础。研究人员随后检查了基因组中各个片段的进化历史。从那里,他们拼凑出了基因树的马赛克,然后将其编译成综合的物种树。这种细致的方法使研究人员能够构建一个新的和改进的鸟类家谱,即使在历史不确定的情况下,也能以惊人的精度和细节描绘复杂的分支事件。
米拉拉布说:“我们发现,在分析中添加数万个基因的方法实际上对于解决鸟类物种之间的进化关系是必要的。” “你确实需要所有的基因组数据来充满信心地恢复 65-6700 万年前的这段时间内发生的事情。”
该团队之所以能够对海量数据集进行这些分析,是因为 Mirarab 的实验室设计了在强大的 GPU 机器上运行的计算方法。他们在加州大学圣地亚哥分校的圣地亚哥超级计算机上的Expanse超级计算机上运行了计算。
“我们很幸运能够使用这样一台高端超级计算机,”米拉拉布说。 “如果没有Expanse,我们将无法在合理的时间内对如此大的数据集运行并重新运行我们的分析。”
研究人员还研究了不同基因组采样方法对树的准确性的影响。他们表明,两种策略——对每个物种的许多基因进行测序,以及对许多物种进行测序——结合在一起对于重建这段进化历史非常重要。
“因为我们混合使用了这两种策略,所以我们可以测试哪种方法对系统发育重建具有更强的影响,”哥本哈根大学生物学教授、《自然》论文的主要作者 Josefin Stiller 说。 “我们发现,从每个生物体中采样许多基因序列比从更广泛的物种中采样更重要,尽管后一种方法可以帮助我们确定不同群体进化的时间。”
纠正过去
借助先进的计算方法,研究人员还揭示了他们在之前的一项研究中发现的一些不寻常的现象:鸟类基因组中一条染色体的特定部分在数百万年中保持不变,无效基因重组的预期模式。
这种异常现象最初导致研究人员错误地将火烈鸟和鸽子归为进化表亲,因为基于这一未改变的 DNA 部分,它们似乎密切相关。这是因为他们之前的分析是基于 48 种鸟类的基因组。但通过对 363 个物种的基因组进行重复分析,出现了一个更准确的家谱,使鸽子远离火烈鸟。此外,利用由洛克菲勒大学神经生物学教授 Erich Jarvis 领导的脊椎动物基因组计划 (VGP) 提供的六个高质量基因组,Mirarab 和同事能够检测并推测解释这种令人惊讶的模式。
“令人惊讶的是,这段重组被抑制的时期可能会误导分析,”佛罗里达大学生物学教授、PNAS论文的共同通讯作者爱德华·布劳恩 (Edward Braun) 说。 “而且由于它可能会误导分析,因此实际上在未来 6000 万年以后就可以检测到它。这就是最酷的部分。”
版权声明:本文由用户上传,如有侵权请联系删除!