3090显卡助力，《黑悟空》超长视频AI速览

香港，中国香港 – 2025年2月13日 – 在人工智能领域，如何让机器像人一样理解视频内容，一直是研究的热点和难点。近日，香港大学黄超教授实验室与百度合作，推出了一项名为VideoRAG的创新技术，成功突破了超长视频理解的时长限制。令人惊讶的是，这项技术仅需一张RTX 3090 GPU（24GB显存）即可高效理解数百小时的视频内容，为超长视频理解领域带来了新的突破。

这项研究成果以论文《VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos》的形式发表，并已开源代码。

论文链接：https://arxiv.org/abs/2502.01549
代码开源地址：https://github.com/HKUDS/VideoRAG
实验室主页：https://github.com/HKUDS

超长视频理解的挑战与机遇

随着互联网视频内容的爆炸式增长，如何高效理解和利用这些海量信息成为了一个重要课题。传统的视频理解方法在处理超长视频时面临诸多挑战，例如：

时长限制： 现有模型受限于计算资源和上下文长度，难以处理动辄数小时甚至数百小时的超长视频。
信息割裂： 将长视频分割成片段处理会导致上下文信息丢失，难以捕捉视频中的长时序依赖关系。
跨视频关联： 如何建立不同视频片段之间的语义关联，实现跨视频的知识整合，也是一个亟待解决的问题。

VideoRAG的出现，为解决上述挑战提供了一种全新的思路。

VideoRAG：多模态知识索引与检索的创新框架

VideoRAG的核心在于其创新的多模态知识索引框架。该框架能够将海量视频内容浓缩为简洁、结构化的知识图谱，从而支持跨视频推理。具体来说，VideoRAG采用了以下关键技术：

双通道多模态视频知识索引： 视频包含视觉、音频和文本等多模态信息。VideoRAG采用双通道架构，通过构建文本知识图谱建模跨视频片段的语义关联与时序依赖，并结合层级化的多模态特征编码，保留细粒度的视频信息。
基于图的文本知识对齐： 利用视觉语言模型（VLM）生成自然语言描述，捕捉对象、动作和场景动态；通过自动语音识别（ASR）技术转录视频中的对话和叙述，并与视觉描述融合，生成统一的语义表示；基于大语言模型（LLMs）识别实体与关系，构建全局知识图谱，并支持增量式跨视频语义整合。
多模态上下文编码： 使用多模态编码器将视觉信息与文本查询映射到同一特征空间，实现高效的语义检索，同时保留难以通过文本描述的视觉细节。
混合多模态检索范式： 结合语义理解和视觉上下文，精准识别与查询相关且信息量丰富的视频片段，生成更准确的回答。具体包括文本语义匹配、视觉内容匹配以及LLM过滤机制。

LongerVideos：全新的超长视频基准数据集

为了验证VideoRAG的性能，研究团队还建立了全新的LongerVideos基准数据集。该数据集包含160多个视频，涵盖了讲座、纪录片和娱乐等类别，为超长视频理解领域的研究提供了有力支持。

VideoRAG的优势与应用前景

总的来说，VideoRAG具有以下显著优势：

高效理解超长视频： 仅需单张RTX 3090 GPU即可处理数百小时的视频内容。
知识图谱驱动： 将视频内容浓缩为结构化的知识图谱，支持跨视频推理。
多模态检索： 采用多模态检索范式，能够有效对齐文本语义与视觉内容，确保从多个长视频中精准检索出相关片段。
全新的基准数据集： 建立了LongerVideos基准数据集，推动该领域的研究发展。

VideoRAG技术的应用前景十分广阔，例如：

智能教育： 帮助学生快速检索和理解在线课程视频，提高学习效率。
视频监控： 实现对长时间监控录像的智能分析，及时发现异常事件。
内容创作： 辅助视频编辑人员快速定位和提取所需素材，提高创作效率。
娱乐休闲： 让用户能够“一口气”看完喜欢的电视剧或纪录片，并随时获取相关信息。

结语

香港大学与百度合作开发的VideoRAG技术，为超长视频理解领域带来了新的突破。该技术不仅能够高效处理海量视频数据，还能够实现跨视频的知识整合，为各种应用场景提供了强大的支持。随着人工智能技术的不断发展，我们有理由相信，VideoRAG将在未来发挥更加重要的作用，推动视频理解技术的进步，为人们的生活带来更多便利。

参考文献：

VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos. https://arxiv.org/abs/2502.01549

致谢：

感谢机器之心对本文的报道和支持。

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31