shanghaishanghai

引言

人工智能正在重新定义创意的边界。 阿里最新推出的Ovis-U1模型,正是这一论断的有力佐证。作为一款集多模态理解、文本到图像生成和图像编辑于一身的统一模型,Ovis-U1不仅在技术上取得了突破,更在实际应用中展现了广阔的前景。那么,这款模型究竟有何独特之处?它又将如何改变我们的生活和工作?

主体

Ovis-U1是什么?

Ovis-U1是阿里巴巴集团Ovis团队推出的一款多模态统一模型,拥有30亿参数。它集成了多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。

主要功能

多模态理解

Ovis-U1支持理解复杂的视觉场景和文本内容,回答有关图像的问题,执行视觉问答(VQA)任务,及进行图像描述生成。这一功能使得模型在处理多种信息源时表现得游刃有余。

文本到图像生成

根据文本描述生成高质量的图像,支持多种风格和复杂的场景描述。这一功能为艺术家和设计师提供了强大的工具,使他们能够更高效地进行创作。

图像编辑

根据文本指令对图像进行精确编辑,包括添加、调整、替换、删除图像中的元素,及风格转换等。这一功能在广告设计、游戏开发等领域具有广泛的应用前景。

技术原理

架构设计

  • 视觉解码器(Visual Decoder):基于扩散的Transformer架构(MMDiT),从文本嵌入生成高质量图像。
  • 双向令牌细化器(Bidirectional Token Refiner):增强文本和视觉嵌入之间的交互,提升文本到图像合成和图像编辑任务的性能。
  • 视觉编码器(Visual Encoder):基于预训练的视觉编码器(如Aimv2-large-patch14-448),进行微调适应多模态任务。
  • 适配器(Adapter):连接视觉编码器和多模态大语言模型(MLLM),对视觉和文本嵌入进行对齐。
  • 多模态大语言模型(MLLM):作为模型的核心,处理文本和视觉信息,支持多种多模态任务。

统一训练方法

Ovis-U1在多模态理解、文本到图像生成和图像编辑任务上同时进行训练,基于共享知识提升模型的泛化能力。训练过程分为六个阶段,逐步优化模型在不同任务上的性能。每个阶段都有特定的任务和训练目标,逐步提升模型的多模态能力。

数据组成

  • 多模态理解数据:包括公开数据集(如COYO、Wukong、Laion、ShareGPT4V、CC3M)和内部开发的数据。
  • 文本到图像生成数据:用Laion5B数据集和JourneyDB数据集,基于预训练模型生成详细的图像描述。
  • 图像+文本到图像生成数据:涵盖图像编辑、参考图像驱动的图像生成、像素级控制的图像生成等多种任务的数据。

性能优化

在图像编辑任务中,调整文本和图像的引导系数(CFG),实现对编辑指令的精确控制。用多个基准测试(如OpenCompass、GenEval、DPG-Bench、ImgEdit-Bench、GEdit-Bench-EN)全面评估模型的多模态能力。

项目地址


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注