引言
图像生成技术的每一次进步,都在重新定义我们与数字世界的交互方式。 智源研究院的这句话,不仅拉开了OmniGen2发布的序幕,也点燃了业界对统一图像生成模型未来发展的无限期待。随着人工智能技术的不断演进,图像生成已经从单一的任务执行,迈向了多模态、多任务的统一架构。在这样的背景下,OmniGen2的发布,无疑是一次具有里程碑意义的升级。
OmniGen2的诞生与进化
智源研究院的创新之路
智源研究院自2024年9月发布首个统一图像生成模型OmniGen以来,便在国际技术社区中获得了广泛赞誉。OmniGen凭借其高度通用性与简洁架构,支持文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)、主题驱动图像生成(Subject-driven Image Generation)等多种任务,用户仅需使用多模态自然语言指令,即可实现上述功能,无需额外的上下文提示、插件或预处理模块。
然而,随着Gemini 2.0 Flash和GPT-4o等闭源多模态模型的相继发布,构建统一图像生成模型成为了当前最受关注的研究与应用方向之一。在这一背景下,OmniGen迎来了重大技术升级,全新的OmniGen2正式发布。
OmniGen2的技术突破
分离式架构与双编码器策略
OmniGen2采用了分离式架构解耦文本和图像,同时应用了ViT(Vision Transformer)和VAE(Variational Autoencoder)的双编码器策略。不同于其他模型,ViT和VAE在OmniGen2中独立作用于MLLM(Multi-modal Large Language Model)和Diffusion Transformer中,这不仅提高了图像的一致性,还保证了原有的文字生成能力。
数据生成流程重构
在探索解决开源数据集质量缺陷问题的过程中,OmniGen2开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。这一流程有效解决了图像质量和质量准确度不高的问题,特别是在图像编辑任务中。
图像生成反思机制
受到大型语言模型自我反思能力的启发,OmniGen2还探索了将反思能力整合到多模态生成模型中的策略。基于OmniGen2的基础模型,团队构建了面对图像生成的反思数据。每条反思都涉及两个关键方面:1)对与原始指令相关的缺陷或未满足要求的分析,2)为解决前一幅图像的局限性而提出的解决方案。经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。
OmniGen2的核心功能
基于自然语言指令的图像编辑
OmniGen2支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。这一功能极大地提升了用户在图像编辑方面的灵活性和便捷性。
多模态上下文参考的图像生成
OmniGen2可以从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品/人物置于新的场景中。这一功能在图像创作和设计中具有广泛的应用前景。
文生图
OmniGen2能够生成任意比例的图片,包括1:1、2:1、3:2等比例。这一功能使得用户在进行不同需求的图像生成任务时,拥有了更大的自由度。
OmniGen2的性能表现
在基准测试中的表现
OmniGen2在已有基准上取得了颇具竞争力的结果,包括文生图和图像编辑。然而,对于图片上下文参考生成(in-context generation)任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。
引入OmniContext基准
为了解决这一限制,智源研究院引入了OmniContext基准,其中包括8个任务类别,专门用于评估个人、物体和场景的一致性。数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。这一基准的引入,将为图像生成模型的评估提供更为全面和系统的标准。
OmniGen2的推理部署优化
FlagScale框架与TeaCache缓存加速策略
OmniGen2依托智源研究院自研的大模型训练推理并行框架FlagScale,开展了推理部署优化工作。
Views: 0
