何恺明新作：分形生成模型，效率狂飙4000倍

麻省理工学院，2025年2月26日 – 计算机视觉领域知名学者何恺明带领的团队近日发布了一项突破性研究成果，推出了一种全新的图像生成模型——分形生成模型（Fractal Generative Models）。该模型借鉴了数学中分形的自相似结构，通过递归调用同类生成模型，实现了高分辨率图像的逐像素建模，并在效率上实现了高达4000倍的提升。

这项研究由麻省理工学院博士后研究员Tianhong Li担任第一作者，本科生Qinyi Sun担任第二作者，论文已发表在arXiv上，并公开了GitHub代码。

在计算机科学领域，模块化设计是构建复杂系统的关键。深度神经网络由原子“层”构成，而现代生成模型（如扩散模型和自回归模型）则由原子“生成步骤”构成。何恺明团队在此基础上，进一步将生成模型本身抽象为一个模块，从而构建出更高级的生成模型。

分形生成模型的核心思想在于，它通过在其内部递归调用同类生成模型来构建。这种递归策略产生了一种具有自相似性的复杂架构，类似于数学中的分形。分形是由递归规则构建的自相似模式，分形生成模型也通过在生成模型中调用生成模型的递归过程构建，并在不同层次上表现出自相似性。

研究团队表示，分形生成模型的灵感来源于生物神经网络和自然数据中观察到的分形特性。他们设计的关键组件是定义递归生成规则的生成器，例如自回归模型。在这种情况下，每个自回归模型都由本身就是自回归模型的模块组成。每个父自回归块生成多个子自回归块，每个子块又进一步生成更多自回归块，从而形成在不同级别上表现出类似分形的自相似模式。

为了验证分形生成模型的有效性，研究人员在一个具有挑战性的测试平台上进行了实验，即逐像素图像生成。实验结果表明，该模型不仅能够逐像素生成原始图像，还实现了准确的似然估计和高生成质量。

该研究团队在一个具有挑战性的测试平台上（逐像素图像生成）检验了这个分形实例。结果显示，本文的分形框架在这一具有挑战性的重要任务上表现出色，它不仅可以逐像素生成原始图像，同时实现了准确的似然估计和高生成质量。

一位匿名评论员表示：“分形生成模型代表了AI领域一个令人兴奋的前沿。自回归模型的递归性质反映了学习如何反映自然模式。这不仅仅是理论，它是通往更丰富、适应性更强的AI系统的途径。”

分形生成模型的关键思路是“从现有的原子生成模块中递归地构建更高级的生成模型”。具体而言，该模型将一个原子生成模块用作参数分形生成器，使神经网络可以直接从数据中“学习”递归规则。通过将指数增长的分形输出与神经生成模块相结合，该模型可以对高维非序列数据进行建模。

研究人员还展示了如何通过将自回归模型用作分形生成器来构建分形生成模型。他们将自回归模型用作说明性原子模块，以演示分形生成模型的实例化，并用来对高纬数据分布进行建模。

在图像生成实例化方面，研究人员展示了分形自回归架构如何用于解决具有挑战性的逐像素图像生成任务。该架构的每个自回归模型将上一级的生成器的输出作为其输入，并为下一级生成器生成多个输出。该模型还获取一张图像（或原始图像的patch），将其分割成patch，并将它们嵌入以形成一个transformer模型的输入序列。这些patch也被馈送到相应的下一级生成器。

何恺明团队的这项研究为生成模型领域带来了新的思路，有望推动人工智能在图像生成、数据建模等方面的进一步发展。研究人员希望这项成果能够激励更多人投入到分形生成模型的设计和应用研究中，最终在生成建模中建立一种全新的范式。

参考文献：

Li, T., Sun, Q., & He, K. (2025). Fractal Generative Models. arXiv preprint arXiv:2502.17437.
https://arxiv.org/pdf/2502.17437v1
GitHub repository: https://github.com/LTH14/fractalgen

>>> Read more <<<