上海,中国 – 在人工智能领域,多模态学习正成为研究热点。近日,社交平台小红书与上海交通大学联合推出了一项名为 WorldSense 的全新基准测试,旨在全面评估多模态大型语言模型(MLLMs)在理解现实世界场景中的综合能力。这一举措标志着中国在人工智能评测领域迈出了重要一步,有望推动多模态AI技术的进步与应用。

WorldSense 的核心在于评估模型对视觉、听觉和文本输入的综合理解能力。该基准测试包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,并配有3172个多项选择问答对,涉及26个不同的认知任务。与以往的基准测试不同,WorldSense 强调音频和视频信息的紧密耦合,所有问题都需要模型同时利用这两种模态的信息才能得出正确答案。

“我们希望通过 WorldSense,能够更真实地反映模型在实际应用场景中的表现,”上海交通大学项目负责人表示。“以往的评测往往侧重于单一模态,而忽略了现实世界中信息的多样性和关联性。WorldSense 的推出,正是为了弥补这一不足。”

WorldSense 的主要功能和技术原理:

  • 多模态协作评估: 强调音频和视频信息的紧密耦合,设计需要用视觉和听觉信息才能正确回答的问题。严格测试模型在多模态输入下的理解能力,确保模型能够有效整合不同模态的信息以实现准确的理解。
  • 多样化视频和任务覆盖: WorldSense包含1662个音频-视频同步的多样化视频,涵盖8个主要领域和67个细分子类别,及3172个多项选择问答对,覆盖26个不同的认知任务。
  • 高质量标注与验证: 所有问答对均由80名专家标注员手动标注,经过多轮验证,包括人工审核和自动模型验证,确保标注的准确性和可靠性。
  • 多模态输入处理: WorldSense要求模型同时处理视频、音频和文本输入。视频和音频的同步性确保模型能捕捉到视觉和听觉信息之间的关联,更全面地理解场景。
  • 任务设计与标注: 基于精心设计的问答对,确保每个问题都需要多模态信息的整合得出正确答案。标注过程涉及多轮人工审核和自动验证,确保问题的合理性和标注的准确性。
  • 多模态融合与推理: 基于多样化的任务设计,评估模型在不同层次上的多模态理解能力,包括基本感知(如音频和视觉元素的检测)、理解(多模态关系的把握)和推理(如因果推断和抽象思维)。
  • 数据收集与筛选: WorldSense的数据收集过程包括从大规模视频数据集中筛选出具有强音频-视觉关联的视频片段,基于人工审核确保视频内容的质量和多样性。

WorldSense 的潜在应用场景:

WorldSense 的推出,不仅为多模态AI模型的评估提供了一个新的标准,也为相关技术的应用开辟了更广阔的空间。其潜在应用场景包括:

  • 自动驾驶: 帮助自动驾驶系统更好地理解交通环境中的视觉和听觉信息,提升决策准确性。
  • 智能教育: 评估和改进教育工具对教学视频内容的理解能力,辅助个性化学习。
  • 智能监控: 提升监控系统对视频中视觉和音频信息的感知与理解能力,增强安全检测效果。
  • 智能客服: 评估智能客服系统对用户语音、表情和文本输入的理解能力,优化交互体验。
  • 内容创作: 帮助多媒体内容创作和分析系统更智能地理解视频内容,提高创作和推荐效率。

资源链接:

WorldSense 的发布,无疑将推动多模态AI技术的发展,并为相关领域的应用带来新的机遇。随着人工智能技术的不断进步,我们有理由期待,未来将有更多创新性的应用涌现,为人类的生活带来更多便利和惊喜。

参考文献:


>>> Read more <<<

Views: 8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注