北京时间[当前日期]讯 – 阿里巴巴国际团队近日正式推出其最新力作——多模态大语言模型Ovis2。这一系列模型旨在通过结构化嵌入对齐技术,有效弥合视觉与文本模态之间的差异,从而实现更强大的多模态理解与生成能力。Ovis2的发布,无疑为多模态大模型的研究和应用开辟了新的方向。

Ovis2是什么?

Ovis2是阿里巴巴国际团队推出的新一代多模态大语言模型,它继承并优化了Ovis系列架构,着重提升了小规模模型的能力密度。通过指令微调和偏好学习,Ovis2在思维链(CoT)推理能力上实现了显著提升。此外,Ovis2还引入了视频和多图像处理能力,增强了多语言支持和复杂场景下的OCR能力。

Ovis2系列包含1B、2B、4B、8B、16B和34B六个不同参数规模的模型版本,并在OpenCompass多模态评测榜单中表现出色,尤其在数学推理和视频理解方面展现出卓越性能。

Ovis2的核心功能:

  • 多模态理解与生成: Ovis2能够处理文本、图像、视频等多种输入模态,并生成高质量的文本输出,从而支持复杂场景下的视觉和语言任务。
  • 强化推理能力: 通过提升思维链(CoT)推理能力,Ovis2能够解决复杂的逻辑和数学问题,并提供逐步推理的解决方案。
  • 视频和多图像处理: Ovis2引入了视频理解能力,支持关键帧选择和多图像输入,从而能够处理跨帧的复杂视觉信息。
  • 多语言支持和OCR能力: Ovis2支持多种语言的文本处理,并能够从复杂视觉元素(如表格、图表)中提取结构化数据。
  • 小模型优化: Ovis2通过优化训练策略,使小规模模型达到高能力密度,从而满足不同应用场景的需求。

Ovis2的技术原理:

Ovis2的技术核心在于结构化嵌入对齐。它基于视觉tokenizer将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉token。视觉token与文本token一起输入到LLM中,实现模态间的结构化对齐。

Ovis2采用四阶段训练策略

  1. 第一阶段: 冻结LLM,训练视觉模块,学习视觉特征到嵌入的转化。
  2. 第二阶段: 进一步训练视觉模块,增强高分辨率图像理解和多语言OCR能力。
  3. 第三阶段: 用对话形式的视觉数据,使视觉嵌入对齐LLM的对话格式。
  4. 第四阶段: 进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力和输出质量。

在视频理解方面,Ovis2采用MDP3算法(基于帧与文本的相关性、组合多样性和序列性)选择关键帧,从而提升视频理解能力。

此外,Ovis2还基于Transformer架构,结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合和生成。

Ovis2的应用场景:

Ovis2的应用前景十分广阔,涵盖了多个领域:

  • 研究人员和开发者: 可用于模型优化、算法改进或开发多模态应用。
  • 内容创作者: 可用于快速生成图片或视频的描述、文案、标题等,提升创作效率。
  • 教育工作者和学生: 教师可生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则可通过视觉问答功能解决学习中的问题。
  • 企业用户: 可用于处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
  • 普通用户和技术爱好者: 可用于生成图片描述或进行视觉问答,探索技术在日常生活中的应用。

开源地址:

结论:

Ovis2的发布标志着阿里巴巴在多模态大语言模型领域迈出了重要一步。其强大的多模态理解能力、优化的推理能力以及对小规模模型的关注,使其在众多应用场景中具有巨大的潜力。随着Ovis2的开源,相信它将为多模态人工智能领域带来更多的创新和发展。

参考文献:

(完)


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注