引言
在人工智能技术飞速发展的今天,视觉理解与生成已成为诸多领域的重要课题。无论是创意内容的生成,还是图像编辑与修复,亦或是虚拟现实与增强现实的应用,视觉技术的突破都将带来深远的影响。近日,中国科学院计算技术研究所与中国科学院大学联合推出了一款名为Jodi的视觉理解与生成统一模型。这款模型基于扩散模型框架,将视觉生成与理解任务统一起来,展现了强大的可扩展性和跨领域一致性。本文将深入探讨Jodi的技术原理、主要功能及其广泛的应用场景。
Jodi是什么?
背景与研发机构
Jodi是由中国科学院计算技术研究所与中国科学院大学联合开发的扩散模型框架。该模型基于联合建模图像域和多个标签域,旨在将视觉生成与理解任务统一起来。这一研究项目代表了国内在人工智能视觉技术领域的又一重要里程碑。
技术框架
Jodi基于线性扩散Transformer和角色切换机制,能够执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。为了训练这一模型,研究团队构建了一个包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集。
Jodi的主要功能
联合生成
联合生成是Jodi的核心功能之一。该功能允许模型同时生成图像和多个标签,例如深度图、法线图、边缘图等。生成的图像和标签在语义和空间上保持一致,这为多模态数据生成和图像编辑提供了新的可能性。
可控生成
Jodi还支持可控生成,即根据给定的标签组合生成图像。用户可以指定某些标签作为条件输入,从而控制生成图像的特定属性或特征。这一功能为创意内容生成和设计提供了极大的灵活性。
图像感知
图像感知功能使Jodi能够从给定的图像中同时预测多个标签。这一多维度理解和分析能力在图像理解任务中具有重要应用价值,例如在医学图像分析中,可以同时进行深度估计、边缘检测和语义分割等任务。
Jodi的技术原理
联合建模
Jodi基于图像域和多个标签域的联合分布进行建模。通过学习联合分布p(x, y1, y2, …, yM),模型能够推导出生成任务和理解任务所需的边际分布和条件分布。这一联合建模方法为模型的多任务处理能力奠定了基础。
角色切换机制
在训练过程中,每个域会被随机分配三种角色之一:生成目标([G])、条件输入([C])或被忽略([X])。这一机制使得模型能够同时学习不同类型的概率分布,包括联合生成、可控生成和图像感知。
线性扩散Transformer
Jodi采用了线性扩散Transformer作为主干网络。这种网络结构基于线性注意力机制,有效降低了计算复杂度,使得模型能够高效地处理多个视觉域。此外,模型还引入了掩码线性注意力和领域不变的位置嵌入,增强了不同视觉域之间的一致性和对齐。
数据集构建
为了支持多视觉域的联合建模,Jodi团队构建了Joint-1.6M数据集。该数据集包含20万张高质量图像以及对应的7个视觉域的自动标签,为模型的训练提供了丰富的数据支持。
Jodi的项目地址
Jodi项目已经公开了其相关资源,包括项目官网、GitHub仓库和HuggingFace模型库。此外,相关的技术论文也在arXiv上发布,供学术界和工业界参考。
- 项目官网:https://vipl-genun.github.io/Project-Jodi/
- GitHub仓库:https://github.com/VIPL-GENUN/Jodi
- HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
- arXiv技术论文:[https://arxiv.org/pdf/2505.19084](https://arxiv.org/pdf/2505.19
Views: 0