墨尔本,澳大利亚 – 人工智能(AI)正在重塑科学研究的面貌。澳大利亚莫纳什大学的研究团队近日在《Nature Machine Intelligence》上发表了一项突破性研究,展示了一种名为LLM4SD的全新框架,该框架利用大型语言模型(LLM)驱动分子特性预测,有望加速科学发现的进程。

这项研究不仅标志着LLM在自然科学领域的又一次重要应用,更预示着AI在模拟科学家思维、整合科学知识方面的巨大潜力。LLM4SD能够从海量科学文献中提取关键信息,并从实验数据中推断知识,从而将分子转化为可解释的特征向量,最终实现对分子特性的精准预测。

LLM4SD:AI如何模拟科学家的思维?

LLM4SD的核心在于模拟科学家进行科学发现的两个关键步骤:一是综合文献知识,二是推断实验数据。具体来说,LLM4SD首先通过检索预训练的科学文献,获取已知的分子特性规则,例如“分子量低于500 Da的分子更有可能通过血脑屏障”。其次,LLM4SD利用其对SMILES符号(一种描述分子结构的语言)和化学知识的理解,从实验数据中识别潜在的模式,例如“含有卤素的分子更有可能通过血脑屏障”。

研究共同作者Yizhen Zheng形象地比喻道:“就像ChatGPT写论文或解决数学问题一样,我们的LLM4SD工具会阅读数十年的科学文献并分析实验室数据来预测分子的行为方式,从而回答诸如『这种药物能穿过大脑的保护屏障吗?』或『这种化合物会溶于水吗?』”

超越“黑匣子”:可解释性是关键

与传统的机器学习模型相比,LLM4SD的一大优势在于其可解释性。研究人员指出,LLM4SD不仅能够进行预测,还能用简单的规则解释其分析过程、预测和结果,这有助于科学家信任并根据其见解采取行动。

“LLM4SD并非取代传统的机器学习模型,而是通过综合知识和生成可解释的解释来增强它们,”作者之一Jiaxin Ju强调,“这种方法确保了人工智能驱动的预测仍然可靠,并且可供不同科学学科的研究人员使用。”

性能卓越:分子特性预测达到新高度

为了验证LLM4SD的性能,研究人员将其应用于由斯坦福PANDE小组整理的MoleculeNet数据集中的58个基准任务。这些任务涵盖分类和回归,涉及生理学、生物物理学、物理化学和量子力学等多个领域。结果显示,LLM4SD在分子特性预测任务中实现了当前最佳水平。

更令人印象深刻的是,LLM4SD在预测材料设计关键的量子特性方面的准确率提高了48%。这一结果表明,LLM4SD在加速新材料发现方面具有巨大的潜力。

未来展望:AI驱动的科学发现时代来临

尽管LLM4SD取得了显著进展,研究人员也承认科学发现领域广阔而复杂,这项研究还只是触及了表面。然而,LLM4SD的成功为更深入的探索铺平了道路,预示着一个人工智能驱动的洞察力与人类智慧交织在一起以纠正当前科学生产力下降的时代的到来。

“我们已经完全进入了生成人工智能时代,我们需要尽可能利用它来推动科学发展,同时确保我们以合乎道德的方式发展它,”该研究的共同通讯作者Geoffrey I. Webb教授表示,“该工具有可能使药物发现过程更容易、更快、更准确,并成为世界各地各个领域科学家的强大研究支持。”

这项研究不仅为AI在科学领域的应用提供了新的思路,也引发了人们对未来科研模式的思考。随着AI技术的不断发展,我们有理由相信,AI将成为科学家们不可或缺的助手,共同推动科学的进步。

参考文献:

  • Zheng, Y., Ju, J., Koh, H. Y., & Webb, G. I. (2025). Large language models for scientific discovery in molecular property prediction. Nature Machine Intelligence, 7(2), 1-11.

致谢:

感谢莫纳什大学研究团队为本文提供的资料和信息。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注