伦敦—— 药物研发领域正迎来一场由人工智能驱动的革新。牛津大学的研究团队近日宣布,他们开发出一种全新的机器学习策略,能够以惊人的速度预测蛋白质与配体结合时的自由能扰动,为药物发现带来前所未有的效率提升。这项研究不仅在算法层面实现了突破,更重要的是,它为机器学习模型在药物研发中的实际应用提供了更可靠的评估标准。
传统的药物研发过程漫长且成本高昂,其中一个关键环节是预测小分子药物与靶标蛋白的结合能力。自由能扰动(FEP)计算是预测这种结合能力的重要方法,但其计算量巨大,耗时漫长。而牛津大学的研究团队,通过巧妙地结合图神经网络和注意力机制,开发出一种名为AEV-PLIG(原子环境向量-蛋白质配体相互作用图)的新模型,在特定测试中,将速度提升了惊人的40万倍。
这项研究成果于2025年2月8日发表在《Communications Chemistry》杂志上,题为“利用增强数据缩小机器学习评分函数与自由能扰动之间的差距”。
AEV-PLIG:更高效、更精准的结合亲和力预测
AEV-PLIG模型的创新之处在于,它将原子环境向量(AEV)与蛋白质-配体相互作用图(PLIG)相结合,利用注意力机制的图神经网络架构,更有效地捕捉决定结合亲和力的复杂相互作用。
“机器学习为快速准确地预测结合亲和力提供了巨大的希望,”该研究团队表示,“然而,目前的模型缺乏稳健的评估,无法完成(命中到)先导化合物优化中遇到的任务,例如对一系列同类配体的结合亲和力进行排序,从而限制了它们在药物发现中的应用。”
为了解决这个问题,研究团队不仅提出了AEV-PLIG模型,还构建了一个更真实的分布外测试集(OOD测试),用于评估模型的泛化能力。通过在包含CASF-2016和自由能扰动(FEP)计算的测试集上进行基准测试,研究人员证明了AEV-PLIG模型具有强大的竞争力,并为机器学习模型提供了更现实的评估。
数据增强:提升预测相关性和排名
除了算法创新,研究团队还探索了数据增强策略,即利用基于模板的建模或分子对接生成的数据来增强训练集。结果表明,这种策略能够显著改善结合亲和力预测的相关性和FEP基准上的排名。
“鉴于生化领域普遍存在数据稀缺的问题,我们探索了使用增强数据,”研究人员解释说,“通过对实验结合数据进行训练的模型,但使用基于模板的比对或对接来建模3D蛋白质-配体结构,可以有效提高AEV-PLIG在药物发现系统中的排名能力。”
未来展望:AI驱动的药物研发新时代
这项研究的意义不仅在于速度的提升,更在于它为机器学习在药物研发中的应用提供了新的思路和方法。通过更高效的算法、更可靠的评估标准和更有效的数据增强策略,AI有望在药物发现的各个环节发挥更大的作用,加速新药研发的进程。
“额外的增强数据可以提高未来的性能;鉴于最近引入了精确的(蛋白质-配体)结构预测模型,例如AlphaFold 3、Umol 和 NeuralPlexer,这些数据很快就会随时可用。”研究人员充满信心地表示。
可以预见,随着AI技术的不断发展和应用,药物研发将迎来一个全新的时代,新药的发现将变得更加高效、精准和经济。
参考文献:
- 论文原文链接 (假设链接)
- Communications Chemistry 杂志
- AlphaFold 3 相关论文
- Umol 相关论文
- NeuralPlexer 相关论文
(本文由[你的名字]撰写,所有观点仅代表作者个人,不代表任何机构或媒体立场。)
Views: 0