阿里国际重磅发布：多模态大语言模型Ovis2

北京时间[当前日期]讯 – 阿里巴巴国际近日推出全新多模态大语言模型系列Ovis2，该模型在多模态理解、推理能力和多语言支持等方面均有显著提升。Ovis2系列包含1B至34B六个不同参数规模的模型版本，并在OpenCompass多模态评测榜单中展现出卓越性能，尤其在数学推理和视频理解方面表现突出。

Ovis2：结构化嵌入对齐，强化小模型能力

Ovis2模型基于结构化嵌入对齐技术，旨在解决视觉与文本模态间的差异。其核心技术在于通过视觉tokenizer将图像分割成图像块，提取特征后映射到“视觉单词”上，形成概率化的视觉token。这些视觉token与文本token一同输入到大语言模型（LLM）中，实现模态间的结构化对齐。

该模型采用了四阶段训练策略：

视觉模块训练（冻结LLM）： 学习视觉特征到嵌入的转化。
高分辨率图像和多语言OCR能力增强： 进一步训练视觉模块，提升对复杂视觉信息的处理能力。
视觉嵌入对齐LLM对话格式： 通过对话形式的视觉数据，使视觉嵌入与LLM的对话格式对齐。
多模态指令训练和偏好学习： 提升模型对用户指令的遵循能力和输出质量。

此外，Ovis2引入视频理解能力，采用MDP3算法选择关键帧，提升视频理解的效率和准确性。该模型基于Transformer架构，结合强大的视觉编码器（如ViT）和语言模型（如Qwen），实现高效的多模态融合和生成。

应用场景广泛，赋能多领域

Ovis2模型的开源为多模态大模型的研究和应用提供了新的方向和工具。其应用场景广泛，包括：

研究人员和开发者： 用于模型优化、算法改进或开发多模态应用。
内容创作者： 快速生成图片或视频的描述、文案、标题等，提升创作效率。
教育工作者和学生： 教师生成图片或视频的解释性文字，帮助学生理解复杂内容；学生则通过视觉问答功能解决学习中的问题。
企业用户： 金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据，提取关键信息，辅助决策。
普通用户和技术爱好者： 进行简单的多模态任务，例如生成图片描述或进行视觉问答，探索技术在日常生活中的应用。

开源地址与未来展望

Ovis2的项目地址已在GitHub和HuggingFace模型库公开：

GitHub仓库： https://github.com/AIDC-AI/Ovis
HuggingFace模型库： https://huggingface.co/collections/AIDC-AI/ovis2

阿里国际Ovis2的发布，不仅丰富了多模态大语言模型领域的研究成果，也为各行业带来了更智能、更高效的解决方案。随着技术的不断发展，我们有理由期待Ovis2在未来的应用中发挥更大的作用。

参考文献：

AIDC-AI. (n.d.). Ovis. GitHub. Retrieved from https://github.com/AIDC-AI/Ovis
AIDC-AI. (n.d.). Ovis2. Hugging Face. Retrieved from https://huggingface.co/collections/AIDC-AI/ovis2

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

阿里国际重磅发布：多模态大语言模型Ovis2

作者智能小编

相关文章

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

发表回复取消回复

为您推荐