北京 – 字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院,近日正式发布了图像定制生成框架 DreamO。该框架基于预训练的扩散变换器(DiT)模型,旨在实现多种图像生成任务的灵活定制,为虚拟试穿、风格迁移、主体驱动生成等场景提供强大的技术支持。
DreamO 的核心优势在于其多条件集成能力。该框架能够无缝集成身份(Identity)、主体(Subject)、风格(Style)、背景等多种条件,并基于特征路由约束和占位符策略,提升生成结果的一致性和条件解耦能力。此外,DreamO 采用分阶段训练策略,确保模型在复杂任务中高效收敛,从而保持高质量的生成效果。
技术解析:扩散变换器与特征路由约束
DreamO 的技术核心在于其采用的扩散变换器(DiT)框架。扩散模型通过逐步去除噪声生成图像,而变换器架构则提升了模型对输入条件的理解和处理能力。这种结合使得 DreamO 能够灵活处理文本、图像、条件等不同类型的输入,实现高度定制化的图像生成。
为了提高生成结果与参考图像的一致性,DreamO 引入了特征路由约束。该约束通过优化条件图像与生成图像之间的注意力机制,确保生成图像的特定区域与条件图像对应,从而避免条件之间的耦合。此外,占位符策略允许用户在文本描述中添加占位符(如 [ref#1]),将条件图像与文本描述中的特定对象关联起来,实现对生成图像中条件位置的精确控制。
分阶段训练策略:确保高质量生成
DreamO 采用分阶段训练策略,包括初始阶段(简单任务)、全面训练阶段(多任务)和质量对齐阶段(纠正偏差)。这种策略有助于模型在复杂数据分布下顺利收敛,并保持高质量的生成效果。为了实现广泛的泛化能力,DreamO 构建了涵盖多种任务(如身份定制、主体驱动、虚拟试穿、风格迁移等)的大规模训练数据集,确保模型能够学习到不同条件下的生成能力。
应用场景:从虚拟试穿到创意内容生成
DreamO 的应用场景十分广泛,包括:
- 虚拟试穿: 用户上传自己的照片和服装图片,即可生成试穿效果。
- 风格迁移: 将普通照片转换为艺术风格图像,或根据设计草图生成不同风格的视觉效果,适用于艺术创作和设计灵感探索。
- 主体驱动生成: 根据用户上传的照片生成个性化头像或虚拟角色,支持多主体融合,适用于社交媒体、游戏和动画制作。
- 身份定制: 生成包含特定人物形象的图像,支持身份特征的保留和融合,适用于虚拟社交和个性化内容创作。
- 创意内容生成: 根据文本描述和条件图像生成创意广告、影视特效或教育场景图像,支持多种复杂定制任务,满足创意需求。
项目信息:
- 项目官网:https://mc-e.github.io/project/DreamO/
- GitHub 仓库:https://github.com/bytedance/DreamO
- arXiv 技术论文:https://arxiv.org/pdf/2504.16915
未来展望:
DreamO 的发布标志着图像生成技术在定制化方面取得了重要进展。随着技术的不断发展和应用场景的不断拓展,DreamO 有望在虚拟现实、增强现实、创意设计等领域发挥更大的作用,为用户带来更加个性化和智能化的体验。
参考文献:
- DreamO 项目官网:https://mc-e.github.io/project/DreamO/
- DreamO GitHub 仓库:https://github.com/bytedance/DreamO
- DreamO arXiv 技术论文:https://arxiv.org/pdf/2504.16915
(完)
Views: 3