news pappernews papper

引言

人工智能正在改变我们与数字世界互动的方式。 这句话在今天已经不再是一个遥远的预言,而是我们生活中的现实。随着多模态生成模型的发展,AI不仅能够理解和生成文本,还能根据文本描述生成图像、编辑图片,甚至创造出逼真的视觉场景。北京智源人工智能研究院推出的 OmniGen2 正是这一技术前沿的代表。这个开源的多模态生成模型,凭借其强大的文本到图像生成能力、指令驱动的图像编辑功能以及高度的上下文理解能力,正在为创意设计、游戏开发、教育等多个领域带来革命性的变化。

OmniGen2是什么?

OmniGen2 是由北京智源人工智能研究院开发的开源多模态生成模型。该模型最显著的特点是能够根据文本提示生成高质量的图像,并且支持指令引导的图像编辑。例如,用户可以通过简单的文本指令修改图像的背景或人物特征。OmniGen2 采用了双组件架构,结合视觉语言模型(VLM)和扩散模型,实现了对多种生成任务的统一处理。

主要功能

  1. 文本到图像生成
    OmniGen2 能够根据文本描述生成高保真度和美观的图像。在多个基准测试中,如 GenEval 和 DPG-Bench,OmniGen2 的得分分别为 0.86 和 83.57,表现优异。

  2. 指令引导的图像编辑
    支持复杂的指令驱动的图像修改,包括局部修改(如改变衣服颜色)和整体风格转换(如将照片转换为动漫风格)。在图像编辑任务中,OmniGen2 在多个基准测试中实现了编辑准确性与图像保真度的平衡。

  3. 上下文生成
    OmniGen2 能处理和灵活结合多种输入(如人物、参考物体和场景),生成新颖且连贯的视觉输出。在 OmniContext 基准测试中,OmniGen2 在视觉一致性指标上超越现有开源模型 15% 以上。

  4. 视觉理解
    继承了 Qwen-VL-2.5 基础模型强大的图像内容解析和分析能力。

技术原理

双路径架构

OmniGen2 采用了独立的文本和图像解码路径,分别处理文本和图像模态。文本生成部分基于 Qwen2.5-VL-3B 多模态语言模型(MLLM),图像生成通过一个独立的扩散 Transformer 模块完成。这种设计避免了文本生成对图像质量的负面影响。

扩散 Transformer

图像生成部分采用了一个 32 层的扩散 Transformer,隐藏维度为 2520,总参数量约 40 亿。该模块使用修正流(Rectified Flow)方法进行高效图像生成。

Omni-RoPE 位置编码

OmniGen2 引入了一种新颖的多模态旋转位置嵌入(Omni-RoPE),将位置信息分解为序列和模态标识符、二维高度坐标和宽度坐标。这种编码方式能精确编码图像中每个位置的信息,同时支持多图像空间定位和身份区分。

反思机制

OmniGen2 设计了专门的反思机制,用于提升生成图像的质量和一致性。模型能自我评估生成结果,在多个轮次中进行改进。

训练策略

OmniGen2 采用分阶段训练方法,首先在文字转图像任务上预训练扩散模型,然后引入混合任务训练,最后进行反思能力的端到端训练。

数据处理

训练数据从视频中提取,经过多重过滤,包括 DINO 相似性过滤和 VLM 一致性检查,确保数据质量。

项目地址

应用场景

  1. 设计概念生成


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注