上海交大重磅发布OmniAlign-V数据集

上海，[日期] – 上海交通大学联合上海AI Lab、南京大学、复旦大学和浙江大学，近日正式推出OmniAlign-V，一款旨在提升多模态大语言模型（MLLMs）与人类偏好对齐能力的高质量数据集。该数据集的发布，有望推动多模态人工智能技术的进步，并为开发更智能、更人性化的AI应用奠定基础。

OmniAlign-V数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，并结合开放式、知识丰富的问答对。与以往的数据集不同，OmniAlign-V的设计更加注重任务的多样性，涵盖知识问答、推理任务和创造性任务，旨在通过复杂问题和多样化回答格式，提升模型对人类偏好的理解和对齐能力。

数据集的关键特性与技术原理：

高质量多模态训练数据： OmniAlign-V不仅包含自然图像，还包括海报、图表等信息图表，结合复杂问题和多样化回答格式，帮助模型更好地理解人类的偏好和需求。
增强开放式问答能力： 数据集设计注重开放式问题、跨学科知识和综合回答，旨在训练模型生成更符合人类偏好的答案。
提升推理和创造性能力： 通过训练模型进行更复杂的思考和创作，提升其在多模态交互中的表现。
优化多模态指令调优： 基于高质量的指令调优数据，帮助模型更好地遵循人类指令，保持基础能力，例如目标识别和OCR。
支持多模态模型持续优化： OmniAlign-V可用于监督微调（SFT），并结合直接偏好优化（DPO），进一步提升模型的对齐能力。

在技术原理方面，OmniAlign-V采用了精细的图像筛选与分类策略，基于图像复杂度（IC）评分和对象类别（OC）过滤，筛选出语义丰富且复杂的图像。图像被分类为自然图像和信息图表，针对不同类型的图像设计不同的任务。此外，研究团队还利用GPT-4o等先进模型生成高质量的问答对，并进行后处理优化，包括指令增强、推理增强和信息图表答案的精细化处理，确保数据的多样性和高质量。

广泛的应用前景：

OmniAlign-V的发布，将为多模态人工智能领域带来广泛的应用前景，包括：