90年代的黄河路

深圳,2024年4月4日 – 随着视频内容爆炸式增长,如何让AI理解并处理长视频成为人工智能领域的一大挑战。近日,华为与哈尔滨工业大学(深圳)(以下简称“哈工深”)联合发布了一项突破性研究成果——AdaReTaKe框架,该框架无需额外训练,即可显著提升多模态大模型处理长视频的能力,并在多个权威榜单上名列前茅,为长视频理解领域树立了新的标杆。

这项研究由哈工深博士生王霄和华为大模型研究员佀庆一领衔完成,王霄在华为实习期间参与了该项目。研究聚焦于多模态视频理解和生成,以及多模态理解、LLM post-training和高效推理等关键领域。

长视频理解:AI的下一个 frontier

长视频理解对于智慧安防、智能体的长期记忆以及多模态深度思考能力至关重要。然而,传统的多模态大模型在处理长视频时面临着计算资源和显存的瓶颈。

AdaReTaKe框架的出现,正是为了解决这一难题。该框架的核心在于“自适应地减少时间和知识冗余”(Adaptively Reducing Temporal and Knowledge redundancy),通过在推理过程中动态压缩视频中的冗余信息,使得多模态大模型能够处理的视频长度提升至原来的8倍,达到惊人的2048帧。

AdaReTaKe:无需训练,性能飙升

更令人振奋的是,AdaReTaKe框架无需进行额外的训练,即可在多个基准测试中超越同等规模的模型3-5%。目前,该框架已在VideoMME、MLVU、LongVideoBench和LVBench四个长视频理解榜单上荣登开源模型第一名。

AdaReTaKe框架的论文标题为《AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding》,相关论文和代码已开源,方便研究人员和开发者使用:

技术解读:动态压缩,保留精华

AdaReTaKe框架的核心思想在于动态地压缩视频中的冗余信息。该框架包含两个关键组成部分:

  1. 大模型视频序列分块压缩方法: 将视频帧分割成若干个包含τ帧的块,提取每块的特征,并根据最大上下文长度为每个块分配一个基于其内容的压缩比率,确保最终序列长度不超过限制。
  2. 基于视频时间与模型层间冗余性的压缩率分配:
    • 时间自适应分配: 根据相邻帧相似度动态分配压缩比,静态片段高压缩,动态片段保留更多细节。
    • 层次自适应分配: 通过注意力分数调整各层压缩比率,避免“一刀切”策略。

通过这种精细化的动态压缩策略,AdaReTaKe框架能够在减少计算资源消耗的同时,最大程度地保留视频中的关键信息。

实验验证:性能提升,效果显著

实验结果表明,AdaReTaKe框架能够一致提升各个基准的长视频理解能力。在VideoMME、MLVU、LongVideoBench和LVBench四个长视频理解基准上,AdaReTaKe框架对LLaVA-Video、QWen2VL和QWen2.5VL三种基准模型均有稳定提升,平均提升幅度高达3%-5%。

尤其是在平均时长超过1小时的LVBench测试中,AdaReTaKe框架将7B和72B模型的准确率分别提升了5%。

未来展望:长视频理解的无限可能

AdaReTaKe框架的成功,不仅为长视频理解领域带来了新的突破,也为多模态大模型的发展指明了新的方向。随着技术的不断进步,我们有理由相信,AI将在长视频理解领域发挥更大的作用,为智慧安防、智能体等应用带来更广阔的发展空间。

参考文献

致谢

感谢哈尔滨工业大学(深圳)和华为团队为这项研究做出的贡献。


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注