文献信息

超级泛基因组的研究背景与意义

背景

自人类基因组计划(HGP)启动以来,基因组学经历了从单一参考基因组到全基因组序列测定的巨大飞跃。在植物研究中,从最早的模式植物(如拟南芥和水稻)基因组发布到近年来“端粒到端粒”(T2T)高质量组装完成,植物基因组学取得了快速发展。然而,单一参考基因组的局限性越来越明显,特别是在研究种群多样性和复杂遗传变异时,无法全面覆盖群体中稀有或复杂的基因组区域。

超级泛基因组的提出

泛基因组的概念起源于细菌研究,后来被引入植物和动物研究领域,用以表示某一物种群体内所有基因组信息的集合。

超级泛基因组进一步扩展至属级别或更高的分类单元,整合多个物种的基因组,涵盖更广泛的遗传和表型多样性,成为解决植物遗传多样性、进化和分子育种等研究问题的重要工具。

超级泛基因组的构建方法

超级泛基因组的分类

根据研究采样范围和数据集组成,超级泛基因组的构建可以分为以下三种类型:

简单超级泛基因组 (Simple super pangenome)

• 每个物种仅选取一个代表性样本,采用传统的泛基因组构建方法生成。

• 适合于对不同物种的基因组多样性进行初步分析,但不能完整体现多物种的基因组信息。

中间超级泛基因组 (Intermediate super pangenome)

• 某些物种中包含多个样本,采样范围更广泛。

• 数据集能够部分体现各物种泛基因组的信息,介于简单和完整超级泛基因组之间。

完整超级泛基因 (Complete super pangenome)

• 首先对每个物种构建单独的泛基因组,然后整合所有物种的泛基因组信息。

• 构建过程复杂,但可以全面反映目标分类单元的基因组信息,是最接近超级泛基因组概念的实现方式。

超级泛基因组的构建方法

文章还进一步分析了超级泛基因组的构建技术,每种方法适用于不同研究场景:

基于映射的泛基因组 (Map-to-pan)

将基因组测序数据映射到参考基因组,未匹配到的序列组装为新序列,最终与参考基因组整合。

• 优点:成本较低,适合处理复杂基因组。

• 缺点:依赖参考基因组的质量,无法全面捕获大规模结构变异(SV)。

全基因组比对 (Whole-genome alignment):

通过对高质量基因组序列进行全基因组比对,生成不冗余的超级泛基因组。

• 优点:直接反映样本间的遗传差异。

• 缺点:对高重复、多倍体基因组的处理成本高,组装过程复杂。

图形泛基因组 (Graph-based pangenome):

将所有基因组信息以图结构存储,可直接用于基因型检测。

• 优点:能够综合存储种群中的所有遗传变异,并保持序列连续性,是未来参考基因组发展的重要方向。

• 缺点:图结构数据存储和可视化工具的开发尚处于初期。

超级泛基因组的研究成果与应用领域

已有研究成果

目前超级泛基因组研究集中在粮食作物和经济作物,例如:

• 水稻:结合 251 个水稻及其野生近缘种的基因组,构建的超级泛基因组包含 4 倍于单个水稻基因组的信息。

• 西瓜:整合 7 个西瓜属种的 27 个基因组,扩展了 399.2Mb 的新序列,超过一半来自野生种。

• 杨树:超级泛基因组涵盖 19 种杨树,其中只有 51.3%的基因属于核心基因,显现出显著的种间变异。

主要研究领域

  1. 复杂遗传变异的解析:捕获传统单一基因组中难以检测的变异类型,如倒位、重复序列和转座子。

  2. 群体遗传学与多组学整合:超级泛基因组能够提供多物种的基因型信息,避免单一参考基因组的偏倚,支持大规模种群分析。

  3. 进化与适应性研究:超级泛基因组可用于识别属级别的保守基因与变异基因,解析物种分化和生态适应性。

  4. 驯化与选择研究:构建多物种泛基因组数据集,可以全面解析驯化过程中的遗传多样性变化,为驯化研究提供新视角。

  5. 基因挖掘与分子育种:整合野生和栽培品种的基因资源,挖掘功能基因,推动农艺性状改良和智能育种。

挑战与展望

挑战

发展方向

总结

超级泛基因组为植物遗传多样性、进化过程和分子育种提供了新的理论与实践工具,未来其研究应用将进一步扩展到更广泛的植物领域,成为现代基因组学的重要支柱。