华为&哈工深联手，AdaReTaKe突破长视频理解瓶颈

深圳，2024年4月4日 – 随着视频内容爆炸式增长，如何让AI理解并处理长视频成为人工智能领域的一大挑战。近日，华为与哈尔滨工业大学（深圳）（以下简称“哈工深”）联合发布了一项突破性研究成果——AdaReTaKe框架，该框架无需额外训练，即可显著提升多模态大模型处理长视频的能力，并在多个权威榜单上名列前茅，为长视频理解领域树立了新的标杆。

这项研究由哈工深博士生王霄和华为大模型研究员佀庆一领衔完成，王霄在华为实习期间参与了该项目。研究聚焦于多模态视频理解和生成，以及多模态理解、LLM post-training和高效推理等关键领域。

长视频理解：AI的下一个 frontier

长视频理解对于智慧安防、智能体的长期记忆以及多模态深度思考能力至关重要。然而，传统的多模态大模型在处理长视频时面临着计算资源和显存的瓶颈。

AdaReTaKe框架的出现，正是为了解决这一难题。该框架的核心在于“自适应地减少时间和知识冗余”（Adaptively Reducing Temporal and Knowledge redundancy），通过在推理过程中动态压缩视频中的冗余信息，使得多模态大模型能够处理的视频长度提升至原来的8倍，达到惊人的2048帧。

AdaReTaKe：无需训练，性能飙升

更令人振奋的是，AdaReTaKe框架无需进行额外的训练，即可在多个基准测试中超越同等规模的模型3-5%。目前，该框架已在VideoMME、MLVU、LongVideoBench和LVBench四个长视频理解榜单上荣登开源模型第一名。

AdaReTaKe框架的论文标题为《AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding》，相关论文和代码已开源，方便研究人员和开发者使用：

论文链接： https://arxiv.org/abs/2503.12559
开源代码： https://github.com/SCZwangxiao/video-FlexReduc.git

技术解读：动态压缩，保留精华

AdaReTaKe框架的核心思想在于动态地压缩视频中的冗余信息。该框架包含两个关键组成部分：

大模型视频序列分块压缩方法： 将视频帧分割成若干个包含τ帧的块，提取每块的特征，并根据最大上下文长度为每个块分配一个基于其内容的压缩比率，确保最终序列长度不超过限制。
基于视频时间与模型层间冗余性的压缩率分配：
- 时间自适应分配： 根据相邻帧相似度动态分配压缩比，静态片段高压缩，动态片段保留更多细节。
- 层次自适应分配： 通过注意力分数调整各层压缩比率，避免“一刀切”策略。

通过这种精细化的动态压缩策略，AdaReTaKe框架能够在减少计算资源消耗的同时，最大程度地保留视频中的关键信息。

实验验证：性能提升，效果显著

实验结果表明，AdaReTaKe框架能够一致提升各个基准的长视频理解能力。在VideoMME、MLVU、LongVideoBench和LVBench四个长视频理解基准上，AdaReTaKe框架对LLaVA-Video、QWen2VL和QWen2.5VL三种基准模型均有稳定提升，平均提升幅度高达3%-5%。

尤其是在平均时长超过1小时的LVBench测试中，AdaReTaKe框架将7B和72B模型的准确率分别提升了5%。

未来展望：长视频理解的无限可能

AdaReTaKe框架的成功，不仅为长视频理解领域带来了新的突破，也为多模态大模型的发展指明了新的方向。随着技术的不断进步，我们有理由相信，AI将在长视频理解领域发挥更大的作用，为智慧安防、智能体等应用带来更广阔的发展空间。

参考文献

AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding. https://arxiv.org/abs/2503.12559

致谢

感谢哈尔滨工业大学（深圳）和华为团队为这项研究做出的贡献。

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

华为&哈工深联手，AdaReTaKe突破长视频理解瓶颈

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐