TDPO-R算法：AI新突破，挑战OpenAI o1？

与OpenAI o1 技术理念相似，TDPO-R 算法有效缓解扩散模型对齐中的奖励过优化问题

引言

OpenAI最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展。据业内人士分析，其关键技术在于基于强化学习的搜索与学习机制，通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。这种细粒度奖励机制为模型的每一步推理提供细粒度的反馈，而不仅是依赖最终答案的正确性来评估模型的表现，有效应对复杂任务中的长程依赖问题。

TDPO-R 算法：与 o1 相似的细粒度奖励机制

前不久，来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员在 ICML 2024 上发表了一项名为 TDPO-R 的强化学习算法，与 o1 不谋而合地也采用了细粒度奖励机制。TDPO-R 在强化学习算法中引入了时间差分奖励机制，对文生图扩散模型的每一步生成过程提供细粒度的反馈，从而有效缓解了在扩散模型对齐时常见的奖励过优化问题。

扩散模型对齐中的奖励过优化问题

扩散模型（Diffusion Model）作为一种先进的生成式模型，在生成高质量逼真图像方面具有显著优势。为了确保生成的图像能够符合下游任务目标以及用户偏好，许多研究者开始探索如何对预训练扩散模型进行奖励或偏好驱动的微调训练，即扩散模型对齐。

然而，受奖励目标驱动，这些扩散模型对齐方法常常面临一个核心挑战 —— 奖励过优化。经过微调后的模型可能会过度偏向于某一奖励目标，导致生成的图像丧失个性化和多样性、视觉保真度降低，最终偏离人类真实的审美偏好。

TDPO-R 算法的优势

TDPO-R算法通过引入时间差分奖励机制，对扩散模型的每一步生成过程进行评估，而不是仅仅关注最终生成的图像质量。这种细粒度的反馈机制能够有效地引导模型朝着更符合人类审美偏好的方向发展，避免过度优化某一特定奖励目标。

研究意义

这项研究证实了细粒度奖励机制在扩散模型对齐中的关键性，而 o1 的最新技术同样揭示了这一机制在大模型领域中的广泛应用前景，有望推动生成模型在多样化、复杂任务中的持续发展与优化。

结论

TDPO-R算法与 OpenAI o1 模型的最新研究成果相呼应，共同证明了细粒度奖励机制在解决奖励过优化问题方面的有效性。未来，随着对细粒度奖励机制的深入研究，我们可以期待生成模型在各个领域取得更大的突破，为人类创造更多价值。

参考文献

Zhang, Z., Tao, D., Wen, Y., Zhang, S., Zhan, Y., & Luo, Y. (2024). TDPO-R: Temporal Difference Preference Optimization for Diffusion Model Alignment. Proceedings of the 38th International Conference on Machine Learning (ICML).

作者简介

张子屹，武汉大学计算机学院博士二年级学生，研究方向为强化学习、扩散模型和大模型对齐。
陶大程，澳大利亚科学院院士、欧洲科学院外籍院士、IEEE Fellow，现任南洋理工大学杰出教授。
文勇刚，新加坡工程院院士、IEEE Fellow，现为南洋理工大学计算机科学与工程学院校长讲席教授，同时担任 IEEE Transactions on Multimedia 主编。
张森，曾在悉尼大学从事博士后研究工作，现任 TikTok 机器学习工程师。
詹忆冰，京东探索研究院算法科学家。
罗勇，武汉大学计算机学院教授、博士生导师、国家特聘青年专家。

联系方式

liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

>>> Read more <<<