小红书联手上海交大，发布多模态AI评测新标杆

上海，中国 – 在人工智能领域，多模态学习正成为研究热点。近日，社交平台小红书与上海交通大学联合推出了一项名为 WorldSense 的全新基准测试，旨在全面评估多模态大型语言模型（MLLMs）在理解现实世界场景中的综合能力。这一举措标志着中国在人工智能评测领域迈出了重要一步，有望推动多模态AI技术的进步与应用。

WorldSense 的核心在于评估模型对视觉、听觉和文本输入的综合理解能力。该基准测试包含1662个音频-视频同步的多样化视频，覆盖8个主要领域和67个细分子类别，并配有3172个多项选择问答对，涉及26个不同的认知任务。与以往的基准测试不同，WorldSense 强调音频和视频信息的紧密耦合，所有问题都需要模型同时利用这两种模态的信息才能得出正确答案。

“我们希望通过 WorldSense，能够更真实地反映模型在实际应用场景中的表现，”上海交通大学项目负责人表示。“以往的评测往往侧重于单一模态，而忽略了现实世界中信息的多样性和关联性。WorldSense 的推出，正是为了弥补这一不足。”

WorldSense 的主要功能和技术原理：

多模态协作评估： 强调音频和视频信息的紧密耦合，设计需要用视觉和听觉信息才能正确回答的问题。严格测试模型在多模态输入下的理解能力，确保模型能够有效整合不同模态的信息以实现准确的理解。
多样化视频和任务覆盖： WorldSense包含1662个音频-视频同步的多样化视频，涵盖8个主要领域和67个细分子类别，及3172个多项选择问答对，覆盖26个不同的认知任务。
高质量标注与验证： 所有问答对均由80名专家标注员手动标注，经过多轮验证，包括人工审核和自动模型验证，确保标注的准确性和可靠性。
多模态输入处理： WorldSense要求模型同时处理视频、音频和文本输入。视频和音频的同步性确保模型能捕捉到视觉和听觉信息之间的关联，更全面地理解场景。
任务设计与标注： 基于精心设计的问答对，确保每个问题都需要多模态信息的整合得出正确答案。标注过程涉及多轮人工审核和自动验证，确保问题的合理性和标注的准确性。
多模态融合与推理： 基于多样化的任务设计，评估模型在不同层次上的多模态理解能力，包括基本感知（如音频和视觉元素的检测）、理解（多模态关系的把握）和推理（如因果推断和抽象思维）。
数据收集与筛选： WorldSense的数据收集过程包括从大规模视频数据集中筛选出具有强音频-视觉关联的视频片段，基于人工审核确保视频内容的质量和多样性。

WorldSense 的潜在应用场景：

WorldSense 的推出，不仅为多模态AI模型的评估提供了一个新的标准，也为相关技术的应用开辟了更广阔的空间。其潜在应用场景包括：

自动驾驶： 帮助自动驾驶系统更好地理解交通环境中的视觉和听觉信息，提升决策准确性。
智能教育： 评估和改进教育工具对教学视频内容的理解能力，辅助个性化学习。
智能监控： 提升监控系统对视频中视觉和音频信息的感知与理解能力，增强安全检测效果。
智能客服： 评估智能客服系统对用户语音、表情和文本输入的理解能力，优化交互体验。
内容创作： 帮助多媒体内容创作和分析系统更智能地理解视频内容，提高创作和推荐效率。

资源链接：

项目官网：https://jaaackhongggg.github.io/WorldSense/
GitHub仓库：https://github.com/JaaackHongggg/WorldSense
HuggingFace模型库：https://huggingface.co/datasets/honglyhly/WorldSense
arXiv技术论文：https://arxiv.org/pdf/2502.04326

WorldSense 的发布，无疑将推动多模态AI技术的发展，并为相关领域的应用带来新的机遇。随着人工智能技术的不断进步，我们有理由期待，未来将有更多创新性的应用涌现，为人类的生活带来更多便利和惊喜。

参考文献：

JaaackHongggg. (n.d.). WorldSense. Retrieved from https://jaaackhongggg.github.io/WorldSense/
JaaackHongggg. (n.d.). WorldSense [GitHub repository]. Retrieved from https://github.com/JaaackHongggg/WorldSense
honglyhly. (n.d.). WorldSense [Hugging Face dataset]. Retrieved from https://huggingface.co/datasets/honglyhly/WorldSense
Hong, L., et al. (2025). WorldSense: A Multimodal Benchmark for Comprehensive Evaluation of Large Language Models. arXiv. Retrieved from https://arxiv.org/pdf/2502.04326

>>> Read more <<<