近日,在人工智能领域备受关注的ECCV 2024会议上,清华大学自动化系2022级直博生倪赞林及其导师黄高副教授的研究成果——《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》引起了广泛关注。该论文提出了一种基于离散Token的图像生成自适应推理策略,为AIGC(人工智能生成内容)领域的发展提供了新的思路。
AdaNAT的核心思想是引入一个可学习的策略网络,自动根据每个样本自适应地配置生成策略。这一创新点解决了现有方法中人工设计调度函数的局限性和通用性不足的问题。与传统的自回归生成范式相比,AdaNAT在仅4到8步内即可生成质量不错的图像,展现出显著的计算效率与生成质量。
为了应对基于离散Token的生成过程中不可微的挑战,倪赞林团队将生成策略的优化问题形式化为马尔可夫决策过程(MDP),并利用强化学习算法(如策略梯度)进行训练。此外,他们还提出了一个对抗奖励模型,以生成样本为真实图片的概率作为奖励,有效防止策略网络过拟合。
在多个基准数据集上,AdaNAT在低开销场景下,相较于主流的扩散模型,推理开销至少减少了2-3倍,同时生成效果更佳。实验结果表明,AdaNAT在ImageNet-256和ImageNet-512数据集上的文到图生成方面也有着不错的表现。
该研究成果充分展示了清华大学自动化系在高效深度学习与图像生成领域的深厚积累和创新能力。未来,AdaNAT有望为AIGC领域的发展带来更多可能性。
【结语】
AdaNAT的提出,为离散Token视觉生成中的自适应推理策略提供了新的思路。相信在不久的将来,这一技术将在AIGC领域发挥重要作用,推动人工智能技术的发展。
Views: 8