导语:视频理解作为计算机视觉和人工智能领域的一大挑战,近年来通过端到端训练多模态大语言模型取得了许多进展。然而,处理长视频时,内存消耗增加、长程关系捕捉困难等问题成为进一步应用的障碍。北京通用人工智能研究院与北京大学的研究人员提出了一种基于记忆和工具使用的视频理解智能体 VideoAgent,其在视频理解任务上的表现媲美 Gemini 1.5 Pro,已被 ECCV 2024 接收。
正文:
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
视频理解一直是计算机视觉和人工智能领域的一大挑战。近年来,通过端到端训练多模态大语言模型,视频理解取得了许多进展。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系。这些问题阻碍了将端到端模型进一步应用于视频理解。
为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了首个基于记忆和工具使用的视频理解智能体 VideoAgent,在视频理解任务上媲美 Gemini 1.5 Pro。该论文已被 ECCV 2024 接收。论文链接:https://arxiv.org/abs/2403.11481 项目主页:https://videoagent.github.io/ 代码链接:https://github.com/YueFan1014/VideoAgent
VideoAgent 的主要思想是将视频表示为结构化的记忆,并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解以及对视频问题的回答。
图 1:VideoAgent 流程图。VideoAgent 的记忆设计遵循简约原则:作者发现视频中发生的事件以及视频中出现的人和物体能够涵盖最常见的视频问题。因此,作者设计了如图 1 所示的两个记忆组件:1)时间记忆,用于存储每2秒视频片段所发生的事件;2)物体记忆,用于存储视频中出现的人和物体的信息。
给定一个视频,VideoAgent 会首先构建该视频的时间记忆和物体记忆。在推理阶段,对于该视频的一个问题,VideoAgent 会调用一系列工具,从记忆中抽取与问题有关的信息来回答该问题。
图 2:VideoAgent 回答视频问题的示例。VideoAgent 首先通过片段定位得到了视频中小男孩与成年人同时出现的 5 个时刻;接着在其中两个时刻上调用视觉问答工具,得到了小男孩与成年人之间的关系,并最终准确回答出了视频中的成年人是小男孩的监护者。
实验分析:
作者在 EgoSchema [14], WorldQA [15], NExT-QA [16] 三个长视频理解数据集上测试了 VideoAgent 的性能。实验表明 VideoAgent 能够取得比目前开源的多模态大语言模型更好的表现,并且能够与目前最好的闭源模型相媲美。
在 EgoSchema 长视频多选题数据集上(见表1),VideoAgent 的 60.2% 的准确率相比基准的多模态大语言模型高出了近 30 个百分点,接近 Gemini 1.5 Pro 的 63.2% 的准确率。
在 WorldQA 数据集上(见表2),VideoAgent 在选择题和开放问题上都取得了不错的性能,这归功于 VideoAgent 能够结合大语言模型中的常识知识、推理能力以及视频记忆共同实现对于长视频的理解。
在 NExT-QA 数据集上(见表3),VideoAgent 在时序、因果、描述三类问题上相比基线模型都有显著提升,其在因果类问题上的提升最大。
在 NExT-QA 上,作者对于 VideoAgent 中的 4 种不同工具进行了消融实验(见表4)。实验表明片段描述召回对于 VideoAgent 理解视频是十分必要的。
结语:
VideoAgent 的提出为视频理解领域带来了新的思路,有望推动该领域的发展。随着技术的不断进步,视频理解将更加智能,为我们的生活带来更多便利。
Views: 9