上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)联合南京大学、中国科学院深圳先进技术研究院,正式开源其最新研发的视频多模态大模型InternVideo2.5。这一突破性的成果在视频理解领域取得了显著进展,尤其是在长视频处理和细粒度时空感知方面表现出色,为视频内容理解、检索、编辑以及自动驾驶等多个领域带来了新的可能性。
InternVideo2.5最引人注目的特点在于其强大的长视频处理能力。相较于前代模型,InternVideo2.5能够处理长达万帧的视频,处理长度提升了6倍。这意味着它可以在更长的时间跨度内理解视频内容,并在长视频中精准定位目标帧,实现“大海捞针”式的检索,极大地提升了视频分析的效率。
技术解析:长时丰富上下文建模(LRC)与任务偏好优化(TPO)
InternVideo2.5的核心技术在于长时丰富上下文建模(LRC)和任务偏好优化(TPO)。
-
长时丰富上下文建模(LRC):该技术通过扩展模型的上下文长度和细节感知能力,使InternVideo2.5能够处理长达万帧的视频。LRC包含两个关键组成部分:
- 视频长度自适应令牌表示:根据视频的长度和内容特征动态调整帧采样策略,确保在不同时间尺度上有效捕捉运动信息。例如,短序列采用密集采样,而长序列则采用稀疏采样。
- 分层上下文压缩(HiCo):通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。HiCo通过基于语义相似性的令牌合并,显著减少了冗余信息,并在语言模型处理阶段,进一步整合压缩后的视觉令牌,确保视觉和语言信息的深度融合。
-
任务偏好优化(TPO):TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。这使得InternVideo2.5能够处理多种专业视觉任务,如目标跟踪、分割、时间定位等。TPO的具体实现方式包括任务特定组件集成和视觉概念预训练。
此外,InternVideo2.5还采用了渐进式多阶段训练方案,逐步提升模型的性能,并开发了基于多模态序列并行的分布式系统,显著提高了大规模视频数据的训练效率。
应用前景:从视频检索到自动驾驶
InternVideo2.5的应用场景十分广泛,涵盖了以下几个主要领域:
- 视频内容理解和检索:模型能够根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
- 视频编辑和创作:InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词,并根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
- 监控安防:在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
- 自动驾驶:InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
开源共享:推动视频理解技术发展
上海AI Lab此次开源InternVideo2.5,旨在推动视频理解技术的进一步发展,并促进相关应用在各个领域的落地。研究人员和开发者可以通过以下链接获取更多信息和资源:
- Github仓库:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型库:https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技术论文:https://arxiv.org/pdf/2501.12386
InternVideo2.5的开源,无疑将为视频理解领域注入新的活力,加速相关技术的发展和应用,为人们的生活带来更多便利和可能性。
参考文献:
- OpenGVLab. (2024). InternVideo2.5. Retrieved from https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- OpenGVLab. (2024). InternVideo25. Retrieved from https://huggingface.co/OpenGVLab/InternVideo25
- OpenGVLab. (2024). InternVideo2.5 Technical Report. Retrieved from https://arxiv.org/pdf/2501.12386
Views: 0
