“这三篇论文虽然分别提出了计算生物学领域的三个不同的方法,也有不同的应用,但基本想法是相同的,暨底层预训练大模型加上层的强化学习。”对于课题组最近的三篇论文,沙特阿卜杜拉国王科技大学(KAUST)终身正教授、博士生导师高欣表示。
(资料图片仅供参考)
图丨高欣(来源:高欣)
“这种逻辑与 ChatGPT 很类似,但同时又在技术上优于后者。在 ChatGPT 中,GPT 是底层预训练大模型,用来学习数据本身的分布,而 Chat 是上层的强化学习,用来给底层生成模型的生成进行反馈。而 KAUST 与呈元科技联合实验室开发的强化学习算法,因为要同时关注多个指标,所以是多指标同时优化的强化学习,而不是 ChatGPT 这种单指标优化的强化学习。因此,从这个角度来说,我们的工作在一两年前启动的时候,其理念就已经非常先进,甚至于比 2023 年年初才风靡的 ChatGPT 还要领先。”高欣说。
近年来,高欣一直在计算机科学与生物学的交叉领域深耕,促成了 AI+ 生物科技产学研协作平台的建立,依托该平台发表了上述三篇同系列的论文,以下为读者一一介绍。
开发深度学习模型,预测新冠病毒变种进化
新冠病毒是人类进入信息时代以来第一次真正意义上的“大流行”,它的演化处于持续不断的状态,从最初的野生型,到 Alpha、Beta、Delta、Omicron,再到最近的 XBB 家族,每一次新变种的产生,都会在人类中引发一股新的感染高峰。
如果我们能像预测天气一样,预测未来可能会出现的新的病毒变种,那就可以通过提前设计并普及疫苗的方式做好防护准备。
不过,进化通常是具有随机性的,生物体的“黑盒”性质和个体差异更是让此过程难以追根溯源。在新冠病毒大流行初期,人类就研发了多种疫苗。与此同时,为了应对这些压力,病毒也会朝着“免疫逃逸”的方向进化。这主要是因为,新冠病毒已经经历了多轮筛选,比如疫苗诱导和自然感染后人体产生的抗体等,只有能逃脱“抗体”的病毒,才有可能成为新的流行株。
基于此,高欣团队提出了全新的研究范式,即在给定现有病毒的基础上,确定“免疫逃逸”的方向,并沿着这个方向寻找病毒变种。而在这种条件下找到的变种,极有可能就是未来的流行株。
利用深度神经网络并结合实验数据,他们确定了“免疫逃逸”的方向;同时,用“遗传算法”模拟病毒在生物体中的进化过程,找到了可能会在未来爆发的、存在威胁的病毒变种。
具体来说,该团队通过元学习开发了 ESM 模型,并结合 AlphaFold2、图模型和生物实验室的数据对其进行了微调,使其能更好地预测新冠病毒的免疫逃逸能力。这是也模型的前半部分,建立在蛋白质预训练大模型的基础之上。
模型的另一部分,则是一种名为遗传算法的特殊的搜索算法。高欣指出:“这种算法和自然界病毒的演化方式非常相似,和生成式 AI 关系不大。生成式 AI 本身太不可控,任何将其与病毒联系起来的想法都是相当危险的。”
据了解,基于该团队开发的模型,他们在 BA.4/BA.5 以及 XBB1.5 出现之前,就已经预测到了这些变种。
2023 年 6 月 13 日,相关论文以《利用深度学习预测新冠病毒的抗原进化》(Predicting the antigenic evolution of SARS-COV-2 with deep learning)为题在 Nature Communications 上发表[1]。
图丨相关论文(来源:Nature Communications)
阿卜杜拉国王科技大学 Wenkai Han、Ningning Chen 和 Xinzhou Xu 为共同一作,高欣教授、香港中文大学助理教授 Peter Pak-Hang Cheung 以及中科院计算技术研究所孙世伟副研究员担任论文的共同通讯作者。
据高欣介绍,这篇论文的审稿人认为研究非常新颖和可靠,又具有非常高的现实意义,不仅可以用来指导新疫苗的开发,也能够提高卫生部门对新变种的防护意识。
“事实上,在预印本刚出现的时候,我们的论文就在推特上引发了激烈的讨论,有上万的浏览量和数百的转发。欧美的科学家们和普通民众都对我们模型的结果深感震撼,并呼吁他们的政府重视新疫苗的开发。”高欣说。
从短期来看,虽然“大流行”在各国已经纷纷宣告落幕,但病毒本身尚未消失,因此仍需要对其进行关注和监测。从长期来看,该研究范式也可以在其他流行病毒研究中获得应用,如流感和艾滋病等。因此接下来该团队将进一步完善研究体系,并将其拓展至其他流行病毒的研究中。
此外,他们还想探索病毒进化和疫苗设计之间的结合,并基于其对病毒未来的变化预测,设计“通用疫苗”。
高欣表示:“这需要涉及到多个实验室的合作以及工业界相关的合作,是一个很大涉及面很广的问题,但我相信这一新的研究范式能为人类带来新的变化,让我们更好的地学会‘与流行病毒战斗’。”
让 AI 在制药领域实现突破,缩短药物的研发周期
小分子药物和抗体的开发过程具有诸多相似之处,比如,都需要先找到与目标作用位点有良好结合性能的先导化合物,然后不断优化各种属性以达到预期效果。对于小分子药物来说,这些属性包括目标亲和力、药物样性、代谢速度和毒性等。对于抗体而言,这些属性包括靶点的亲和力、特异性、黏附性、代谢性能和免疫原性等。
这个过程既耗时,成本也很高。但如果能够通过计算方法提高这一步骤的效率,便可大大缩短新药的研发周期。
一方面,为给抗体药物研发过程中的多属性优化提供新的解决方案,高欣团队开发了新的抗体设计方法 AB-Gen。AB-Gen 的主要目标是设计抗体的 CDRH3 序列,而后者通常是抗体与抗原结合过程中最重要的区域。
他们用从 OAS 数据库获取的 CDRH3 序列,训练了一个 GPT 模型,并通过优化 GPT 模型生成的结果,生成符合多种属性约束的抗体 CDRH3 序列。
目前,以《AB-Gen:基于生成式预训练 Transformer 和深度强化学习的抗体库设计》(AB-Gen:Antibody Library Design with Generative Pre-trained Transformer and Deep Reinforcement Learning)为题的论文,已经在 Genomics, Proteomics and Bioinformatics 期刊上线[2]。
图丨相关论文(来源:Genomics, Proteomics and Bioinformatics)
阿卜杜拉国王科技大学 Xiaopeng Xu 为该论文的第一作者,呈元科技的两位研究人员为共同作者,高欣担任通讯作者。
据了解,该论文的审稿人均为计算生物学领域的专家,对 GPT 和抗体相关的问题非常熟悉。其中一位审稿人表示:“GPT 主要用于分布学习,生成符合训练数据集分布的序列。而 OpenAI 的 GPT 方法和后来的 RLHF 方法,只能生成符合原有序列分布规律的序列,无法提升序列的属性。
AB-Gen 方法的最大特点是通过强化学习,让 GPT 能够不断优化所生成序列的属性,生成满足目标属性的序列。这种属性优化的方法在蛋白质设计相关任务中具有广阔的应用前景。”
另一方面,为了更好地探索小分子化学空间,寻找具有高结合性能的小分子药物,高欣团队结合预训练大模型 GPT 和强化学习,提出了 SGPT-RL。他们将每个小分子表示为一个序列 SMILES,并通过优化 GPT 的输出结果,找到与目标有高结合性能的小分子。
在实验过程中,该团队发现 GPT 具有很好的记忆能力,能够学习到训练数据集中小分子的分布规律。
“通过强化学习,GPT 可以有效地找到与目标有高结合能力的小分子,并学习到一些小分子与目标结合的模式。我们认为这些模式特征对于设计特定目标的小分子药物可能会有一些启示。”高欣说。
目前,以《利用生成式预训练 Transformer 和深度强化学习优化化学空间的结合亲和力》(Optimization of binding affinities in chemical space with generative pre-trained transformer and deep reinforcement learning)为题的论文,已经在 F1000 Research 期刊上线 [3]。
图丨相关论文(来源:F1000 Research)
阿卜杜拉国王科技大学 Xiaopeng Xu 为该论文的第一作者,呈元科技的三位研究人员为共同作者,高欣担任通讯作者。
可以看出,上述两项研究均是用 AI 在制药领域实现的创新性突破。对此,高欣表示:“目前,基于生成模型进行药物的从头设计已经取得了重要进展,有一些药物已经进入临床实验阶段。我相信在未来几年内,将会有更多这类药物真正进入临床应用领域。这些药物的问世将会显著降低药物研发的成本,并为一些患者带来福音。”
同时,AI 在蛋白质和多肽设计领域也将会得到越来越广泛的应用。高欣相信这一领域将为大分子药物、多肽药物、酶以及其他蛋白相关应用提供新的解决方案。他也非常期待基于生成式 AI 技术研发的生物药能够进入临床应用阶段。
“问题的定义才是重中之重”
高欣表示,上述研究均包含以下步骤:问题定义、数据收集整理、方法设计、模型实现和调试、干实验测试、湿实验验证、实际管线赋能等。
在他看来,第一步和最后一步最为重要,也是其区别于其他大部分纯学术研究的关键点。
由于许多纯学术研究是好奇心驱动的,因此其解决的问题,可能并非产业界最急需解决的痛点。同时,大部分学术论文都会强调技术的先进性和新颖性,这会导致许多科研人员,甚至是领域专家,犯重技术、轻概念的错误。
“我会经常告诉团队,问题的定义才是重中之重,是根本。因为问题的定义一字之差,就会导致问题变成另一个完全不同的问题,而问题的最优解和解法都跟着发生彻底的变化。所以,一定要确保问题是定义准确正确的,而不能盲目地去跳进技术细节而去解决一个错误定义的问题。”高欣说。
此外,绝大多数科研界实验室都不具备管线赋能的能力,但这对数据科学来说却是必不可少的一个环节。这是因为,实际问题的复杂程度是任何实验室的环境都不可能覆盖到的,如果无法走向应用,就可能存在纸上谈兵的嫌疑。
科研之外,高欣还以联合创始人的身份于 2022 年 4 月创立了呈元科技,这是一家基于下一代 AI 生物设计技术的合成肽创新疗法公司。
在阿卜杜拉国王科技大学校长陈繁昌(Tony Chan)和创新工场董事长兼 CEO 李开复的共同推动下,高欣实验室与呈元科技开设了联合实验室。前者负责前沿算法设计与开发,后者负责算法的工业级改造及应用、自产数据的提供和湿实验验证,两者形成了严格迭代的干湿闭环。
图丨实验室合影(来源:高欣)
高欣认为:“任何 AI+Biology 这个交叉领域的突破性进展必须要有这样一个干湿闭环,干湿平等对话的生态,才有可能完成。如果是一方主导,而另一方只是其辅助和服务的角色,那么永远都无法在这个交叉领域产生根本性的突破。”
此外,谈及研究过程中遇到的难忘往事,高欣认为令他印象最深刻的是,使用 GPT 进行药物设计时收到的反馈。
他说:“从 2020 年开始,我们就开始尝试使用基于 GPT 的生成式 AI 来进行小分子设计,当时 GPT 还没有变得非常流行。到了 2022 年,我们开始投稿时,ChatGPT 还没有引起广泛的关注,许多研究者对基于 GPT 的生成式 AI 方案持怀疑态度,这也导致我们的论文在最初投稿过程中遇到了困难,期刊编辑和同行专家们对此提出了质疑。”
但他们依然坚信这个方案在药物设计领域具有巨大的价值和潜力,并很欣喜地看到其项目启动并完成超过一年的时间之后,相同的想法在不同的应用领域取得了举世瞩目的关注和轰动,并成为改变世界科技走向的技术理念。
“这充分说明我们最初的判断和方向是完全正确的,这也是为什么我们的论文从预印本阶段就开始受到了广泛的关注和讨论,相应期刊也对我们进行了快速通道的审稿。”高欣说。
聚焦计算机科学与生物学,具备较强的多肽药物设计能力
据介绍,高欣于 2004 年在清华大学计算机系获得学士学位,2009 年在加拿大滑铁卢大学计算机学院获得博士学位。2009 年 10 月至 2010 年 9 月,在美国卡耐基梅隆大学计算机学院雷恩计算生物学中心担任雷恩学者。
在担任阿卜杜拉国王科技大学终身正教授的同时,他也是该校计算生物学中心主任、智慧医疗中心副主任,以及结构和功能生物信息学研究组负责人。此外,自 2021 年 9 月起,他还担任中国人民大学高瓴人工智能学院访问讲座教授。
如前所述,计算机科学与生物学的交叉领域是高欣所聚焦的研究重点。
在计算机科学领域,他领导的研究团队主要致力于开发与深度学习、概率图形模型、内核方法和矩阵分解相关的机器学习理论和方法。在生物信息学领域,他带领团队主要致力于构建计算模型、研发机器学习技术、设计高效的算法,以解决从生物序列分析到三维结构确定、到功能注释、再到了解和控制复杂生物网络中的分子行为,以及最近的生物医疗和健康领域中的关键开放问题。目前,其已经在生物信息及机器学习的顶级期刊和会议上发表论文 340 多篇,引用 8000 余次,H-index 为 48。
目前,高欣联合创立的呈元科技已经针对天然氨基酸序列、非天然氨基酸序列和复杂构象的多肽,构建了世界上首个跨模态预训练大模型,其在各种下游任务上,比如亲和力预测、穿膜肽预测、稳定性预测等,都表现出了显著的准确度提升。
高欣表示,该公司的 AI 技术在单个性能指标(如亲和力、穿膜性、稳定性等)和多指标同时指导下的多肽药物设计上,发挥着重要作用。
他进一步解释道:“我们的 AI 算法绝不是拿来主义,而是通过分析具体需求以及数据的约束、假设、限制及属性,解决具体问题中的痛点和难点,打造量身定制的解决方案。因此我们的 AI 算法都有创新性和技术壁垒。”
具体来说,生物制药和合成生物学需要从不同的角度出发,对蛋白进行优化与设计,例如亲和力、稳定性、免疫原性等。传统方法采用层级过滤法,通过前一轮的过滤的候选物,才可以进入下一轮过滤。如果输入的蛋白空间是所有可能的蛋白,如对 12 个残基的多肽,搜索空间为 2012,这种层级过滤法可以保证最优性。
不过,由于搜索空间过于庞大,不可能进行遍历搜索,因此层级过滤法只会对搜索空间的冰山一角进行过滤,最终或者找不到同时满足所有指标的候选物,或者找到的是次优的候选物。
而该公司的 AI 设计平台在设计多肽药物时,会对多肽药物进行全方位的优化,这包括亲和力、穿膜效率、稳定性等多个因素同时优化。
同时,他们也提出了基于多指标同时优化强化学习的蛋白质 in silico 定向进化算法。这款算法可以对多个指标同时进行多维度优化,并将多指标作为强化学习的反馈信息指导下一步的搜索。其具体通过模型序列到功能的预测,指导序列的设计生成,生成序列的质量则主要取决于预测模型的性能,因此在单目标预测算法提升后,能够很轻易地融入原有算法框架,并且会使得序列生成的质量得到提升;更进一步地,多个指标中的任何指标都可以被湿实验数据所替代,即从而形成各种尺度的干湿闭环。
如今,该公司新的多肽药物设计平台和范式已经在多个若干管线中取得良好结果,模型的设计和预测也已得到湿实验验证。“预计在公司成立两年之内,我们会将若干个 First in class(全球新)创新药管线推进到临床试验申报研究(IND Enabling Study)阶段。”高欣最后表示。
参考资料:
1. Han, W., Chen, N., Xu, X. et al. Predicting the antigenic evolution of SARS-COV-2 with deep learning. Nature Communications 14, 3478 (2023). https://doi.org/10.1038/s41467-023-39199-6
2. X., Xu, T., Xu, J., Zhou. et al. AB-Gen: Antibody Library Design with Generative Pre-trained Transformer and Deep Reinforcement Learning. Genomics, Proteomics and Bioinformatics ; doi: https://doi.org/10.1016/j.gpb.2023.03.004
3. X., Xu, J., Zhou. et al. Optimization of binding affinities in chemical space with generative pre-trained transformer and deep reinforcement learning. F1000 Research ; doi: https://doi.org/ 10.12688/f1000research.130936.1.
关键词: