字节跳动发布UNO，AI图像生成新突破！

北京 – 字节跳动近日发布了其最新的AI图像生成框架——UNO，该框架旨在解决传统模型在处理多主体图像生成时面临的一致性难题。UNO通过创新的“少到多”泛化方法，以及一系列先进技术，实现了高质量的单主体和多主体图像生成，为虚拟试穿、产品设计、创意设计等领域带来了新的可能性。

UNO框架的核心在于其独特的技术架构，主要包括以下几个方面：

高一致性数据合成管道： UNO利用扩散变换器（Diffusion Transformers）的内在上下文生成能力，自动创建大规模、高质量的多主体配对训练数据，有效解决了数据获取的难题。
渐进式跨模态对齐： 框架采用分阶段训练策略，首先使用单主体数据微调预训练的文本到图像（T2I）模型，使其具备处理单主体驱动生成任务的能力。然后，引入多主体数据继续训练，增强模型处理复杂场景的能力。
通用旋转位置嵌入（UnoPE）： UNO引入了UnoPE，通过为文本和图像标记分配特定的位置索引，调控多模态标记之间的交互，从而在保持良好文本可控性的同时，提高主体相似性，有效解决了在扩展视觉主体控制时的属性混淆问题。

UNO框架的应用前景广阔，以下是一些主要的应用场景：

UNO框架的发布，标志着字节跳动在AI图像生成领域取得了重要突破。该框架不仅解决了多主体图像生成的一致性难题，还通过“模型-数据共同进化”的新范式，为AI模型的训练和优化提供了新的思路。

随着AI技术的不断发展，图像生成技术将在更多领域得到应用。UNO框架的开源，将有助于推动整个行业的发展，为开发者提供更多的工具和资源。

Bytedance. (2024). UNO: A Unified Generative Framework for Few-shot Multi-Subject Personalization. arXiv preprint arXiv:2504.02160.
Github Repository: bytedance/UNO. Retrieved from https://github.com/bytedance/UNO
Hugging Face Model: bytedance-research/UNO. Retrieved from https://huggingface.co/bytedance-research/UNO

（完）

>>> Read more <<<