文献信息
- 标题: The Developments and Prospects of Plant Super Pangenomes: Demands, Approaches and Applications
- DOI: 10.1016/j.xplc.2024.101230
- 期刊: Plant communications
- 通讯作者: 中国农业科学院深圳农业基因组研究所商连光研究员和崖州湾国家实验室钱前院士为本文的共同通讯作者
- 出版日期: 2024-12-01
- 网址: https://doi.org/10.1016/j.xplc.2024.101230
超级泛基因组的研究背景与意义
背景
自人类基因组计划(HGP)启动以来,基因组学经历了从单一参考基因组到全基因组序列测定的巨大飞跃。在植物研究中,从最早的模式植物(如拟南芥和水稻)基因组发布到近年来“端粒到端粒”(T2T)高质量组装完成,植物基因组学取得了快速发展。然而,单一参考基因组的局限性越来越明显,特别是在研究种群多样性和复杂遗传变异时,无法全面覆盖群体中稀有或复杂的基因组区域。
超级泛基因组的提出
泛基因组的概念起源于细菌研究,后来被引入植物和动物研究领域,用以表示某一物种群体内所有基因组信息的集合。
超级泛基因组进一步扩展至属级别或更高的分类单元,整合多个物种的基因组,涵盖更广泛的遗传和表型多样性,成为解决植物遗传多样性、进化和分子育种等研究问题的重要工具。
超级泛基因组的构建方法
超级泛基因组的分类
根据研究采样范围和数据集组成,超级泛基因组的构建可以分为以下三种类型:
简单超级泛基因组 (Simple super pangenome)
• 每个物种仅选取一个代表性样本,采用传统的泛基因组构建方法生成。
• 适合于对不同物种的基因组多样性进行初步分析,但不能完整体现多物种的基因组信息。
中间超级泛基因组 (Intermediate super pangenome)
• 某些物种中包含多个样本,采样范围更广泛。
• 数据集能够部分体现各物种泛基因组的信息,介于简单和完整超级泛基因组之间。
完整超级泛基因 (Complete super pangenome)
• 首先对每个物种构建单独的泛基因组,然后整合所有物种的泛基因组信息。
• 构建过程复杂,但可以全面反映目标分类单元的基因组信息,是最接近超级泛基因组概念的实现方式。
超级泛基因组的构建方法
文章还进一步分析了超级泛基因组的构建技术,每种方法适用于不同研究场景:
基于映射的泛基因组 (Map-to-pan)
将基因组测序数据映射到参考基因组,未匹配到的序列组装为新序列,最终与参考基因组整合。
• 优点:成本较低,适合处理复杂基因组。
• 缺点:依赖参考基因组的质量,无法全面捕获大规模结构变异(SV)。
全基因组比对 (Whole-genome alignment):
通过对高质量基因组序列进行全基因组比对,生成不冗余的超级泛基因组。
• 优点:直接反映样本间的遗传差异。
• 缺点:对高重复、多倍体基因组的处理成本高,组装过程复杂。
图形泛基因组 (Graph-based pangenome):
将所有基因组信息以图结构存储,可直接用于基因型检测。
• 优点:能够综合存储种群中的所有遗传变异,并保持序列连续性,是未来参考基因组发展的重要方向。
• 缺点:图结构数据存储和可视化工具的开发尚处于初期。
超级泛基因组的研究成果与应用领域
已有研究成果
目前超级泛基因组研究集中在粮食作物和经济作物,例如:
• 水稻:结合 251 个水稻及其野生近缘种的基因组,构建的超级泛基因组包含 4 倍于单个水稻基因组的信息。
• 西瓜:整合 7 个西瓜属种的 27 个基因组,扩展了 399.2Mb 的新序列,超过一半来自野生种。
• 杨树:超级泛基因组涵盖 19 种杨树,其中只有 51.3%的基因属于核心基因,显现出显著的种间变异。
主要研究领域
-
复杂遗传变异的解析:捕获传统单一基因组中难以检测的变异类型,如倒位、重复序列和转座子。
-
群体遗传学与多组学整合:超级泛基因组能够提供多物种的基因型信息,避免单一参考基因组的偏倚,支持大规模种群分析。
-
进化与适应性研究:超级泛基因组可用于识别属级别的保守基因与变异基因,解析物种分化和生态适应性。
-
驯化与选择研究:构建多物种泛基因组数据集,可以全面解析驯化过程中的遗传多样性变化,为驯化研究提供新视角。
-
基因挖掘与分子育种:整合野生和栽培品种的基因资源,挖掘功能基因,推动农艺性状改良和智能育种。
挑战与展望
挑战
-
基因组复杂性:多倍体、杂合性及高重复序列处理难度高。
-
工具限制:图谱基因组的存储、可视化和分析工具不足,阻碍了更广泛的应用。
-
质量评估标准缺失:目前尚无统一的泛基因组质量评估方法。
发展方向
-
构建更高效的坐标系统和标准化工具。
-
整合更多多组学数据(表观遗传学、代谢组等),全面解析重要经济性状的遗传基础。
-
扩展至更多植物物种,实现跨属甚至跨科级别的超级泛基因组研究。
-
引入人工智能和机器学习算法,推动高效基因挖掘和智能育种。
总结
超级泛基因组为植物遗传多样性、进化过程和分子育种提供了新的理论与实践工具,未来其研究应用将进一步扩展到更广泛的植物领域,成为现代基因组学的重要支柱。