智源研究院发布OmniGen2多模态模型，引领AI生成新浪潮

引言

人工智能正在改变我们与数字世界互动的方式。这句话在今天已经不再是一个遥远的预言，而是我们生活中的现实。随着多模态生成模型的发展，AI不仅能够理解和生成文本，还能根据文本描述生成图像、编辑图片，甚至创造出逼真的视觉场景。北京智源人工智能研究院推出的 OmniGen2 正是这一技术前沿的代表。这个开源的多模态生成模型，凭借其强大的文本到图像生成能力、指令驱动的图像编辑功能以及高度的上下文理解能力，正在为创意设计、游戏开发、教育等多个领域带来革命性的变化。

OmniGen2是什么？

OmniGen2 是由北京智源人工智能研究院开发的开源多模态生成模型。该模型最显著的特点是能够根据文本提示生成高质量的图像，并且支持指令引导的图像编辑。例如，用户可以通过简单的文本指令修改图像的背景或人物特征。OmniGen2 采用了双组件架构，结合视觉语言模型（VLM）和扩散模型，实现了对多种生成任务的统一处理。

主要功能

文本到图像生成
OmniGen2 能够根据文本描述生成高保真度和美观的图像。在多个基准测试中，如 GenEval 和 DPG-Bench，OmniGen2 的得分分别为 0.86 和 83.57，表现优异。
指令引导的图像编辑
支持复杂的指令驱动的图像修改，包括局部修改（如改变衣服颜色）和整体风格转换（如将照片转换为动漫风格）。在图像编辑任务中，OmniGen2 在多个基准测试中实现了编辑准确性与图像保真度的平衡。
上下文生成
OmniGen2 能处理和灵活结合多种输入（如人物、参考物体和场景），生成新颖且连贯的视觉输出。在 OmniContext 基准测试中，OmniGen2 在视觉一致性指标上超越现有开源模型 15% 以上。
视觉理解
继承了 Qwen-VL-2.5 基础模型强大的图像内容解析和分析能力。

技术原理

双路径架构

OmniGen2 采用了独立的文本和图像解码路径，分别处理文本和图像模态。文本生成部分基于 Qwen2.5-VL-3B 多模态语言模型（MLLM），图像生成通过一个独立的扩散 Transformer 模块完成。这种设计避免了文本生成对图像质量的负面影响。

扩散 Transformer

图像生成部分采用了一个 32 层的扩散 Transformer，隐藏维度为 2520，总参数量约 40 亿。该模块使用修正流（Rectified Flow）方法进行高效图像生成。

Omni-RoPE 位置编码

OmniGen2 引入了一种新颖的多模态旋转位置嵌入（Omni-RoPE），将位置信息分解为序列和模态标识符、二维高度坐标和宽度坐标。这种编码方式能精确编码图像中每个位置的信息，同时支持多图像空间定位和身份区分。

反思机制

OmniGen2 设计了专门的反思机制，用于提升生成图像的质量和一致性。模型能自我评估生成结果，在多个轮次中进行改进。

训练策略

OmniGen2 采用分阶段训练方法，首先在文字转图像任务上预训练扩散模型，然后引入混合任务训练，最后进行反思能力的端到端训练。

数据处理

训练数据从视频中提取，经过多重过滤，包括 DINO 相似性过滤和 VLM 一致性检查，确保数据质量。

项目地址

项目官网: https://vectorspacelab.github.io/OmniGen2/
Github仓库: https://github.com/VectorSpaceLab/OmniGen2
arXiv技术论文: https://arxiv.org/pdf/2506.18871

应用场景

设计概念生成

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

智源研究院发布OmniGen2多模态模型，引领AI生成新浪潮

作者智能小编

引言

OmniGen2是什么？

主要功能