中科院计算所的研究团队提出了CarbonNovo,这是一种基于人工智能的技术,用于端到端的蛋白质结构和序列的从头设计。
编辑日期:2024年08月21日
中国科学院计算技术研究所的研究团队由张海仓领导,最近提出了一种名为 CarbonNovo 的新方法,该方法采用端到端的方式同时设计蛋白质的主链结构及其序列。这项研究以 "CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model" 为题,已被接受并在2024年的国际机器学习大会 (ICML) 上发表。
编辑 | ScienceAI
背景简介
蛋白质作为生命体中执行关键功能的大分子,其从头设计的目标在于创造全新的蛋白质,这对于药物研发及酶工程领域具有重要的应用价值。
近年来,基于人工智能 (AI) 的蛋白质从头设计技术发展迅速,并已在抗体设计、小型蛋白药物设计等领域取得成功应用,相较于传统设计方法,这些应用显著提升了设计的成功率与效率。
AI 在蛋白质设计中的成功主要得益于以下两个关键技术突破:
- AlphaFold2 模型在蛋白质结构预测领域的突破,这一模型不仅为蛋白质计算领域(包括蛋白质设计)提供了基础的神经网络架构、蛋白质序列及结构表示方法,还引入了先进的训练策略,如蒸馏训练和端到端训练等。
这些进展为蛋白质设计领域带来了革命性的变化。
第二点是,AIGC 在文本、图像及视频生成领域的迅速进步,为蛋白质设计提供了成熟的技术模型,如 DDPM、SDE、Flow Matching 和 Bayesian Flow Network 等。目前一些典型的蛋白质设计模型,如 RFDiffusion 和 Chroma,其核心思想均在于结合这两种技术,即将蛋白质序列与结构的表示网络融入基于AI的生成模型框架之中。
蛋白质的从头设计主要涉及两个步骤:主链结构的设计和序列设计(如图1所示)。因此,当前的主流模型通常采用“两阶段”框架:在训练过程中,结构设计模块与序列设计模块分开训练;在推理过程中,则先生成主链结构,再为该结构生成最优序列。具体而言,领域内通常运用 RFDiffusion 和 ProteinMPNN 这两个软件,依次生成主链结构与序列。
然而,“两阶段”框架在蛋白质从头设计中存在着内在局限性:
CarbonNovo 实现了结构与序列的端到端联合设计
为了克服蛋白质设计中“两阶段”框架的局限性,中国科学院计算技术研究所的张海仓领导的研究团队提出了 CarbonNovo,它以端到端的方式同时设计蛋白质的主链结构与序列。该研究成果已发表于2024年的国际机器学习大会 ICML。
图2:CarbonNovo 实现端到端的蛋白质结构与序列生成。(来源:论文)
CarbonNovo 的主要贡献可以概括为:
- 蛋白质结构与序列的联合能量模型
中国科学院计算技术研究所的研究团队提出了一种名为 CarbonNovo 的方法。
在经典的物理模型中,天然蛋白质的构象通常对应较低的自由能状态,这一特性也是蛋白质结构预测和设计的基本假设之一。基于此假设,CarbonNovo 开发了一个能够联合评估蛋白质结构与序列的能源模型:
图 2 描述了 CarbonNovo 具体的生成流程:
接下来是对 CarbonNovo 在蛋白质结构-序列生成方面性能的评估:
该研究通过多种指标全面评估了 CarbonNovo 在蛋白质从头设计中的表现(如图 3 所示),包括可折叠性、多样性和创新性等常见评估标准。此外,还利用 Rosetta 能量以及语言模型下的可能性(Sequence plausibility)作为额外的评估指标。
CarbonNovo 与现有的“两阶段”设计模型进行了对比,包括 RFdiffusion、Chroma、Genie、FrameDiff 和 FrameFlow 等方法。在至关重要的可折叠性指标上,CarbonNovo 明显超越了所有基准方法,在其他指标上也表现出明显的优势或与基准方法相当的表现。
为了突出 CarbonNovo 在同时设计结构与序列方面的优势,作者还将之与使用 ProteinMPNN 生成序列的结果进行了对比(图 3 a-c)。结果显示,联合设计模型能够产生与蛋白质主链结构更匹配的序列。
作者进一步评估了 CarbonNovo 在不同长度蛋白质设计方面的表现(见图 4)。当设计较短的蛋白质(例如长度为100)时,各模型的表现相近。然而,随着蛋白质长度的增加,CarbonNovo 的设计性能明显超越了“两阶段”设计模型。接下来进行了消融研究。
为了评估各个关键组成部分对于 CarbonNovo 性能的相对贡献,作者训练了一系列消融模型(见图 5)。结果显示,语言模型、序列设计模块以及辅助训练损失都对 CarbonNovo 的性能有所贡献。其中,语言模型的引入显示出了最为显著的贡献。此外,与自回归模型相比,基于能量的序列设计模块同样显著提高了序列设计的性能。
案例研究:蛋白质结构“插值”
在图像生成领域中,人脸图像插值/渐变是生成模型的一个典型应用。作者也尝试使用 CarbonNovo 进行蛋白质结构的插值操作。图 5 中展示了一个代表性例子,随着在隐空间中逐渐增加全α螺旋结构向量的权重,生成的全β片层结构将逐渐转变为全α螺旋结构。
这是该领域首次进行蛋白质结构插值实验,证明了 CarbonNovo 学习到的蛋白质隐空间具有较高的紧凑性。
结论
作者指出,尽管 CarbonNovo 目前主要关注蛋白质单体的设计,但其可以轻松扩展至蛋白质复合物设计及条件设计等领域,如多肽设计、抗体设计等。
目前,作者团队正与生物学实验团队合作,通过湿实验来验证 CarbonNovo 设计的蛋白质的有效性。
本人所在的CarbonMatrix团队一直专注于AI蛋白质设计与AI药物设计领域,并正在构建一个统一的生物大分子结构设计与预测生成模型。我们的研究成果已在ICML、NeurIPS等顶级机器学习会议以及Nature Machine Intelligence、Nature Communications等顶尖学术期刊上多次发表。目前,我们正与生物实验室展开合作,积极促进AI模型在药物设计领域的产业化应用。