上海,中国 – 在人工智能领域,多模态学习正成为研究热点。近日,社交平台小红书与上海交通大学联合推出了一项名为 WorldSense 的全新基准测试,旨在全面评估多模态大型语言模型(MLLMs)在理解现实世界场景中的综合能力。这一举措标志着中国在人工智能评测领域迈出了重要一步,有望推动多模态AI技术的进步与应用。
WorldSense 的核心在于评估模型对视觉、听觉和文本输入的综合理解能力。该基准测试包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,并配有3172个多项选择问答对,涉及26个不同的认知任务。与以往的基准测试不同,WorldSense 强调音频和视频信息的紧密耦合,所有问题都需要模型同时利用这两种模态的信息才能得出正确答案。
“我们希望通过 WorldSense,能够更真实地反映模型在实际应用场景中的表现,”上海交通大学项目负责人表示。“以往的评测往往侧重于单一模态,而忽略了现实世界中信息的多样性和关联性。WorldSense 的推出,正是为了弥补这一不足。”
WorldSense 的主要功能和技术原理:
- 多模态协作评估: 强调音频和视频信息的紧密耦合,设计需要用视觉和听觉信息才能正确回答的问题。严格测试模型在多模态输入下的理解能力,确保模型能够有效整合不同模态的信息以实现准确的理解。
- 多样化视频和任务覆盖: WorldSense包含1662个音频-视频同步的多样化视频,涵盖8个主要领域和67个细分子类别,及3172个多项选择问答对,覆盖26个不同的认知任务。
- 高质量标注与验证: 所有问答对均由80名专家标注员手动标注,经过多轮验证,包括人工审核和自动模型验证,确保标注的准确性和可靠性。
- 多模态输入处理: WorldSense要求模型同时处理视频、音频和文本输入。视频和音频的同步性确保模型能捕捉到视觉和听觉信息之间的关联,更全面地理解场景。
- 任务设计与标注: 基于精心设计的问答对,确保每个问题都需要多模态信息的整合得出正确答案。标注过程涉及多轮人工审核和自动验证,确保问题的合理性和标注的准确性。
- 多模态融合与推理: 基于多样化的任务设计,评估模型在不同层次上的多模态理解能力,包括基本感知(如音频和视觉元素的检测)、理解(多模态关系的把握)和推理(如因果推断和抽象思维)。
- 数据收集与筛选: WorldSense的数据收集过程包括从大规模视频数据集中筛选出具有强音频-视觉关联的视频片段,基于人工审核确保视频内容的质量和多样性。
WorldSense 的潜在应用场景:
WorldSense 的推出,不仅为多模态AI模型的评估提供了一个新的标准,也为相关技术的应用开辟了更广阔的空间。其潜在应用场景包括:
- 自动驾驶: 帮助自动驾驶系统更好地理解交通环境中的视觉和听觉信息,提升决策准确性。
- 智能教育: 评估和改进教育工具对教学视频内容的理解能力,辅助个性化学习。
- 智能监控: 提升监控系统对视频中视觉和音频信息的感知与理解能力,增强安全检测效果。
- 智能客服: 评估智能客服系统对用户语音、表情和文本输入的理解能力,优化交互体验。
- 内容创作: 帮助多媒体内容创作和分析系统更智能地理解视频内容,提高创作和推荐效率。
资源链接:
- 项目官网:https://jaaackhongggg.github.io/WorldSense/
- GitHub仓库:https://github.com/JaaackHongggg/WorldSense
- HuggingFace模型库:https://huggingface.co/datasets/honglyhly/WorldSense
- arXiv技术论文:https://arxiv.org/pdf/2502.04326
WorldSense 的发布,无疑将推动多模态AI技术的发展,并为相关领域的应用带来新的机遇。随着人工智能技术的不断进步,我们有理由期待,未来将有更多创新性的应用涌现,为人类的生活带来更多便利和惊喜。
参考文献:
- JaaackHongggg. (n.d.). WorldSense. Retrieved from https://jaaackhongggg.github.io/WorldSense/
- JaaackHongggg. (n.d.). WorldSense [GitHub repository]. Retrieved from https://github.com/JaaackHongggg/WorldSense
- honglyhly. (n.d.). WorldSense [Hugging Face dataset]. Retrieved from https://huggingface.co/datasets/honglyhly/WorldSense
- Hong, L., et al. (2025). WorldSense: A Multimodal Benchmark for Comprehensive Evaluation of Large Language Models. arXiv. Retrieved from https://arxiv.org/pdf/2502.04326
Views: 8