字节跳动联手北大，DreamO定制图像生成引爆AI！

北京 – 字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院，近日正式发布了图像定制生成框架 DreamO。该框架基于预训练的扩散变换器（DiT）模型，旨在实现多种图像生成任务的灵活定制，为虚拟试穿、风格迁移、主体驱动生成等场景提供强大的技术支持。

DreamO 的核心优势在于其多条件集成能力。该框架能够无缝集成身份（Identity）、主体（Subject）、风格（Style）、背景等多种条件，并基于特征路由约束和占位符策略，提升生成结果的一致性和条件解耦能力。此外，DreamO 采用分阶段训练策略，确保模型在复杂任务中高效收敛，从而保持高质量的生成效果。

技术解析：扩散变换器与特征路由约束

DreamO 的技术核心在于其采用的扩散变换器（DiT）框架。扩散模型通过逐步去除噪声生成图像，而变换器架构则提升了模型对输入条件的理解和处理能力。这种结合使得 DreamO 能够灵活处理文本、图像、条件等不同类型的输入，实现高度定制化的图像生成。

为了提高生成结果与参考图像的一致性，DreamO 引入了特征路由约束。该约束通过优化条件图像与生成图像之间的注意力机制，确保生成图像的特定区域与条件图像对应，从而避免条件之间的耦合。此外，占位符策略允许用户在文本描述中添加占位符（如 [ref#1]），将条件图像与文本描述中的特定对象关联起来，实现对生成图像中条件位置的精确控制。

分阶段训练策略：确保高质量生成

DreamO 采用分阶段训练策略，包括初始阶段（简单任务）、全面训练阶段（多任务）和质量对齐阶段（纠正偏差）。这种策略有助于模型在复杂数据分布下顺利收敛，并保持高质量的生成效果。为了实现广泛的泛化能力，DreamO 构建了涵盖多种任务（如身份定制、主体驱动、虚拟试穿、风格迁移等）的大规模训练数据集，确保模型能够学习到不同条件下的生成能力。

应用场景：从虚拟试穿到创意内容生成

DreamO 的应用场景十分广泛，包括：