上海AI Lab开源InternVideo2.5，视频多模态新突破

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）联合南京大学、中国科学院深圳先进技术研究院，正式开源其最新研发的视频多模态大模型InternVideo2.5。这一突破性的成果在视频理解领域取得了显著进展，尤其是在长视频处理和细粒度时空感知方面表现出色，为视频内容理解、检索、编辑以及自动驾驶等多个领域带来了新的可能性。

InternVideo2.5最引人注目的特点在于其强大的长视频处理能力。相较于前代模型，InternVideo2.5能够处理长达万帧的视频，处理长度提升了6倍。这意味着它可以在更长的时间跨度内理解视频内容，并在长视频中精准定位目标帧，实现“大海捞针”式的检索，极大地提升了视频分析的效率。

技术解析：长时丰富上下文建模（LRC）与任务偏好优化（TPO）

InternVideo2.5的核心技术在于长时丰富上下文建模（LRC）和任务偏好优化（TPO）。

长时丰富上下文建模（LRC）：该技术通过扩展模型的上下文长度和细节感知能力，使InternVideo2.5能够处理长达万帧的视频。LRC包含两个关键组成部分：
- 视频长度自适应令牌表示：根据视频的长度和内容特征动态调整帧采样策略，确保在不同时间尺度上有效捕捉运动信息。例如，短序列采用密集采样，而长序列则采用稀疏采样。
- 分层上下文压缩（HiCo）：通过分层压缩机制，减少视频信号中的时空冗余，同时保留关键信息。HiCo通过基于语义相似性的令牌合并，显著减少了冗余信息，并在语言模型处理阶段，进一步整合压缩后的视觉令牌，确保视觉和语言信息的深度融合。
任务偏好优化（TPO）：TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好，指导模型学习。这使得InternVideo2.5能够处理多种专业视觉任务，如目标跟踪、分割、时间定位等。TPO的具体实现方式包括任务特定组件集成和视觉概念预训练。

此外，InternVideo2.5还采用了渐进式多阶段训练方案，逐步提升模型的性能，并开发了基于多模态序列并行的分布式系统，显著提高了大规模视频数据的训练效率。

应用前景：从视频检索到自动驾驶

InternVideo2.5的应用场景十分广泛，涵盖了以下几个主要领域：

视频内容理解和检索：模型能够根据用户的文本查询快速找到相关的视频内容，支持复杂的视频检索任务。
视频编辑和创作：InternVideo2.5能为视频编辑提供智能支持，例如自动生成视频的精彩片段、生成视频的字幕或解说词，并根据用户的指令对视频进行剪辑和调整，提高视频创作的效率。
监控安防：在监控安防领域，InternVideo2.5能实时分析监控视频，快速定位异常事件并发出警报。
自动驾驶：InternVideo2.5能实时处理自动驾驶车辆的摄像头数据，准确识别道路标志、交通信号和障碍物。