北京时间[当前日期]讯 – 阿里巴巴国际近日推出全新多模态大语言模型系列Ovis2,该模型在多模态理解、推理能力和多语言支持等方面均有显著提升。Ovis2系列包含1B至34B六个不同参数规模的模型版本,并在OpenCompass多模态评测榜单中展现出卓越性能,尤其在数学推理和视频理解方面表现突出。
Ovis2:结构化嵌入对齐,强化小模型能力
Ovis2模型基于结构化嵌入对齐技术,旨在解决视觉与文本模态间的差异。其核心技术在于通过视觉tokenizer将图像分割成图像块,提取特征后映射到“视觉单词”上,形成概率化的视觉token。这些视觉token与文本token一同输入到大语言模型(LLM)中,实现模态间的结构化对齐。
该模型采用了四阶段训练策略:
- 视觉模块训练(冻结LLM): 学习视觉特征到嵌入的转化。
- 高分辨率图像和多语言OCR能力增强: 进一步训练视觉模块,提升对复杂视觉信息的处理能力。
- 视觉嵌入对齐LLM对话格式: 通过对话形式的视觉数据,使视觉嵌入与LLM的对话格式对齐。
- 多模态指令训练和偏好学习: 提升模型对用户指令的遵循能力和输出质量。
此外,Ovis2引入视频理解能力,采用MDP3算法选择关键帧,提升视频理解的效率和准确性。该模型基于Transformer架构,结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合和生成。
应用场景广泛,赋能多领域
Ovis2模型的开源为多模态大模型的研究和应用提供了新的方向和工具。其应用场景广泛,包括:
- 研究人员和开发者: 用于模型优化、算法改进或开发多模态应用。
- 内容创作者: 快速生成图片或视频的描述、文案、标题等,提升创作效率。
- 教育工作者和学生: 教师生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则通过视觉问答功能解决学习中的问题。
- 企业用户: 金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
- 普通用户和技术爱好者: 进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。
开源地址与未来展望
Ovis2的项目地址已在GitHub和HuggingFace模型库公开:
- GitHub仓库: https://github.com/AIDC-AI/Ovis
- HuggingFace模型库: https://huggingface.co/collections/AIDC-AI/ovis2
阿里国际Ovis2的发布,不仅丰富了多模态大语言模型领域的研究成果,也为各行业带来了更智能、更高效的解决方案。随着技术的不断发展,我们有理由期待Ovis2在未来的应用中发挥更大的作用。
参考文献:
- AIDC-AI. (n.d.). Ovis. GitHub. Retrieved from https://github.com/AIDC-AI/Ovis
- AIDC-AI. (n.d.). Ovis2. Hugging Face. Retrieved from https://huggingface.co/collections/AIDC-AI/ovis2
Views: 0
