阿里国际重磅发布：多模态大语言模型Ovis2

北京时间[当前日期]讯 – 阿里巴巴国际团队近日正式推出其最新力作——多模态大语言模型Ovis2。这一系列模型旨在通过结构化嵌入对齐技术，有效弥合视觉与文本模态之间的差异，从而实现更强大的多模态理解与生成能力。Ovis2的发布，无疑为多模态大模型的研究和应用开辟了新的方向。

Ovis2是什么？

Ovis2是阿里巴巴国际团队推出的新一代多模态大语言模型，它继承并优化了Ovis系列架构，着重提升了小规模模型的能力密度。通过指令微调和偏好学习，Ovis2在思维链（CoT）推理能力上实现了显著提升。此外，Ovis2还引入了视频和多图像处理能力，增强了多语言支持和复杂场景下的OCR能力。

Ovis2系列包含1B、2B、4B、8B、16B和34B六个不同参数规模的模型版本，并在OpenCompass多模态评测榜单中表现出色，尤其在数学推理和视频理解方面展现出卓越性能。

Ovis2的核心功能：

Ovis2的技术原理：

Ovis2的技术核心在于结构化嵌入对齐。它基于视觉tokenizer将图像分割成图像块（patch），提取特征后映射到“视觉单词”上，形成概率化的视觉token。视觉token与文本token一起输入到LLM中，实现模态间的结构化对齐。

Ovis2采用四阶段训练策略：

在视频理解方面，Ovis2采用MDP3算法（基于帧与文本的相关性、组合多样性和序列性）选择关键帧，从而提升视频理解能力。

此外，Ovis2还基于Transformer架构，结合强大的视觉编码器（如ViT）和语言模型（如Qwen），实现高效的多模态融合和生成。

Ovis2的应用场景：

Ovis2的应用前景十分广阔，涵盖了多个领域：

开源地址：

结论：

Ovis2的发布标志着阿里巴巴在多模态大语言模型领域迈出了重要一步。其强大的多模态理解能力、优化的推理能力以及对小规模模型的关注，使其在众多应用场景中具有巨大的潜力。随着Ovis2的开源，相信它将为多模态人工智能领域带来更多的创新和发展。

参考文献：

AIDC-AI. (n.d.). Ovis2 GitHub Repository. Retrieved from https://github.com/AIDC-AI/Ovis
AIDC-AI. (n.d.). Ovis2 HuggingFace Model Collection. Retrieved from https://huggingface.co/collections/AIDC-AI/ovis2
AI工具集. (n.d.). Ovis2 – 阿里国际推出的多模态大语言系列模型. Retrieved from [AI工具集提供的网页链接]

（完）

>>> Read more <<<