复旦字节联手，SimpleAR图像生成模型问世

好的，这是一篇关于SimpleAR的新闻稿，力求达到你所要求的专业性和深度。

复旦大学联手字节跳动Seed团队，推出突破性图像生成模型SimpleAR

上海 – 在人工智能图像生成领域，一项引人瞩目的研究成果横空出世。复旦大学视觉与学习实验室与字节跳动Seed团队强强联合，推出了全新的纯自回归图像生成模型——SimpleAR。该模型以其简洁的架构、高效的性能和出色的生成质量，引发了业界的广泛关注。

自回归架构的创新应用

SimpleAR的核心在于其纯自回归的架构。与传统的生成对抗网络（GANs）或扩散模型不同，SimpleAR采用了一种“下一个token预测”的方式，逐步生成图像内容。这种机制将图像分解为一系列离散的token，然后逐个预测这些token，最终构建出完整的图像。

这种自回归方法并非新鲜事物，但SimpleAR的创新之处在于，它成功地将这种架构应用于高分辨率图像生成，并且在效率和质量上都取得了显著的突破。令人惊讶的是，SimpleAR仅用5亿参数，就能生成1024×1024分辨率的图像，这在同类模型中实属罕见。

三阶段训练策略：精益求精

为了达到卓越的生成效果，SimpleAR采用了精心设计的三阶段训练方法：

这种循序渐进的训练策略，使得SimpleAR在文本引导的图像生成方面表现出色。它能够准确理解文本描述，并生成与之高度相关的图像内容。

技术细节与性能指标

SimpleAR的技术亮点还包括：

多模态融合： 将文本和视觉token平等对待，集成在一个统一的Transformer架构中，更好地支持文本和视觉模态之间的联合建模。
推理加速： 通过vLLM等技术优化推理过程，显著缩短了图像生成时间。在配备适当硬件的情况下，SimpleAR可以在14秒内生成1024×1024分辨率的高质量图像。
GenEval基准测试： 在GenEval等基准测试中取得了0.59的优异成绩，证明了其在图像生成质量方面的领先地位。

尽管SimpleAR取得了显著的进展，研究团队也坦诚地指出，该模型在视觉tokenizer的选择上仍有改进空间。目前，SimpleAR使用Cosmos作为视觉tokenizer，在低分辨率图像和细节重建上存在一定的局限性。

广泛的应用前景

SimpleAR的潜在应用场景十分广泛，包括：

开源与未来展望

SimpleAR项目已在GitHub上开源（https://github.com/wdrink/SimpleAR），并提供了HuggingFace模型库（https://huggingface.co/papers/2504.11455）和arXiv技术论文（https://arxiv.org/pdf/2504.11455），方便研究人员和开发者进行学习和使用。

SimpleAR的发布，标志着自回归图像生成技术迈上了一个新的台阶。随着研究的深入和技术的不断完善，我们有理由相信，SimpleAR将在未来的图像生成领域发挥更大的作用，为各行各业带来更多的创新和可能性。

参考文献