OmniAlign-V：上海交大AI数据集引关注

上海讯 – 在人工智能领域，多模态大语言模型（MLLMs）正成为研究热点。为了提升MLLMs在理解和对齐人类偏好方面的能力，上海交通大学联合上海AI Lab、南京大学、复旦大学和浙江大学，近日共同推出了高质量数据集OmniAlign-V。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，并结合开放式、知识丰富的问答对，旨在推动多模态大模型的发展。

OmniAlign-V：弥合机器与人类理解的鸿沟

OmniAlign-V的推出，旨在解决当前多模态大模型在理解图像和对齐人类偏好方面的挑战。该数据集的设计注重任务的多样性，包括知识问答、推理任务和创造性任务，通过复杂问题和多样化回答格式，提升模型的对齐能力。

“我们希望通过OmniAlign-V，让模型不仅能‘看到’图像，更能‘理解’图像背后的含义，并以符合人类习惯的方式进行表达。”上海交通大学项目负责人表示，“这对于提升智能助手的交互质量、图像辅助问答的准确性，以及创意内容的生成都至关重要。”

数据集亮点：高质量、多样性与复杂性

OmniAlign-V数据集的亮点主要体现在以下几个方面：

高质量的多模态训练数据： 数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表（如海报、图表等），结合复杂问题和多样化回答格式，帮助模型更好地理解人类的偏好和需求。
增强模型的开放式问答能力： 数据集设计注重开放式问题、跨学科知识和综合回答，让模型生成更符合人类偏好的回答。
提升模型的推理和创造性能力： 训练模型进行更复杂的思考和创作，从而提升其在多模态交互中的表现。
优化多模态指令调优： 基于高质量的指令调优数据，帮助模型更好地遵循人类指令，保持基础能力（如目标识别、OCR等）。
支持多模态模型的持续优化： OmniAlign-V用于监督微调（SFT），结合直接偏好优化（DPO）进一步提升模型的对齐能力。

技术原理：图像筛选与任务设计的双重保障

为了保证数据集的质量，研究团队采用了精细的图像筛选策略。基于图像复杂度（IC）评分和对象类别（OC）过滤，筛选出语义丰富且复杂的图像。图像被分类为自然图像和信息图表，针对不同类型的图像设计不同的任务。

在任务设计方面，自然图像任务包括知识问答、推理任务和创造性任务，提升模型对真实场景的理解和生成能力。信息图表任务针对图表、海报等设计特定任务，要求模型具备对复杂信息的理解和解释能力。研究团队还利用GPT-4o等先进模型生成高质量的问答对，并基于后处理优化数据质量。

应用场景：赋能多领域AI应用

OmniAlign-V的应用场景广泛，涵盖了多模态对话系统、图像辅助问答、创意内容生成、教育与学习辅助以及信息图表解读等多个领域。