90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报

香港,中国香港 – 2025年2月13日 – 在人工智能领域,如何让机器像人一样理解视频内容,一直是研究的热点和难点。近日,香港大学黄超教授实验室与百度合作,推出了一项名为VideoRAG的创新技术,成功突破了超长视频理解的时长限制。令人惊讶的是,这项技术仅需一张RTX 3090 GPU(24GB显存)即可高效理解数百小时的视频内容,为超长视频理解领域带来了新的突破。

这项研究成果以论文《VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos》的形式发表,并已开源代码。

超长视频理解的挑战与机遇

随着互联网视频内容的爆炸式增长,如何高效理解和利用这些海量信息成为了一个重要课题。传统的视频理解方法在处理超长视频时面临诸多挑战,例如:

  • 时长限制: 现有模型受限于计算资源和上下文长度,难以处理动辄数小时甚至数百小时的超长视频。
  • 信息割裂: 将长视频分割成片段处理会导致上下文信息丢失,难以捕捉视频中的长时序依赖关系。
  • 跨视频关联: 如何建立不同视频片段之间的语义关联,实现跨视频的知识整合,也是一个亟待解决的问题。

VideoRAG的出现,为解决上述挑战提供了一种全新的思路。

VideoRAG:多模态知识索引与检索的创新框架

VideoRAG的核心在于其创新的多模态知识索引框架。该框架能够将海量视频内容浓缩为简洁、结构化的知识图谱,从而支持跨视频推理。具体来说,VideoRAG采用了以下关键技术:

  • 双通道多模态视频知识索引: 视频包含视觉、音频和文本等多模态信息。VideoRAG采用双通道架构,通过构建文本知识图谱建模跨视频片段的语义关联与时序依赖,并结合层级化的多模态特征编码,保留细粒度的视频信息。
  • 基于图的文本知识对齐: 利用视觉语言模型(VLM)生成自然语言描述,捕捉对象、动作和场景动态;通过自动语音识别(ASR)技术转录视频中的对话和叙述,并与视觉描述融合,生成统一的语义表示;基于大语言模型(LLMs)识别实体与关系,构建全局知识图谱,并支持增量式跨视频语义整合。
  • 多模态上下文编码: 使用多模态编码器将视觉信息与文本查询映射到同一特征空间,实现高效的语义检索,同时保留难以通过文本描述的视觉细节。
  • 混合多模态检索范式: 结合语义理解和视觉上下文,精准识别与查询相关且信息量丰富的视频片段,生成更准确的回答。具体包括文本语义匹配、视觉内容匹配以及LLM过滤机制。

LongerVideos:全新的超长视频基准数据集

为了验证VideoRAG的性能,研究团队还建立了全新的LongerVideos基准数据集。该数据集包含160多个视频,涵盖了讲座、纪录片和娱乐等类别,为超长视频理解领域的研究提供了有力支持。

VideoRAG的优势与应用前景

总的来说,VideoRAG具有以下显著优势:

  • 高效理解超长视频: 仅需单张RTX 3090 GPU即可处理数百小时的视频内容。
  • 知识图谱驱动: 将视频内容浓缩为结构化的知识图谱,支持跨视频推理。
  • 多模态检索: 采用多模态检索范式,能够有效对齐文本语义与视觉内容,确保从多个长视频中精准检索出相关片段。
  • 全新的基准数据集: 建立了LongerVideos基准数据集,推动该领域的研究发展。

VideoRAG技术的应用前景十分广阔,例如:

  • 智能教育: 帮助学生快速检索和理解在线课程视频,提高学习效率。
  • 视频监控: 实现对长时间监控录像的智能分析,及时发现异常事件。
  • 内容创作: 辅助视频编辑人员快速定位和提取所需素材,提高创作效率。
  • 娱乐休闲: 让用户能够“一口气”看完喜欢的电视剧或纪录片,并随时获取相关信息。

结语

香港大学与百度合作开发的VideoRAG技术,为超长视频理解领域带来了新的突破。该技术不仅能够高效处理海量视频数据,还能够实现跨视频的知识整合,为各种应用场景提供了强大的支持。随着人工智能技术的不断发展,我们有理由相信,VideoRAG将在未来发挥更加重要的作用,推动视频理解技术的进步,为人们的生活带来更多便利。

参考文献:

致谢:

感谢机器之心对本文的报道和支持。


>>> Read more <<<

Views: 3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注