新华社讯
【北京,2023年9月10日】近日,由英伟达、麻省理工学院(MIT)、加州大学伯克利分校(UC 伯克利)及得克萨斯大学奥斯汀分校共同研发的面向长视频理解的视觉语言AI模型——LongVILA正式发布。该模型在视频处理领域实现了重大突破,为长视频内容理解与分析带来了革命性的变革。
一、模型特点
LongVILA通过算法和系统的共同设计,实现了在大量GPU上进行超长上下文长度训练的能力,无需梯度检查点。该模型能够将视频帧数扩展至1024,显著提升了长视频字幕的评分,并在大规模视频字幕任务中实现了99.5%的准确率。
1. 长上下文处理能力
LongVILA支持高达1024帧的视频处理,能理解和分析长视频中的信息,为视频字幕生成、内容分析等任务提供了强大的支持。
2. 多模态序列并行性(MM-SP)
该模型引入了多模态序列并行性系统,允许在256个GPU上进行2M上下文长度的训练,极大提升了训练效率。
3. 五阶段训练流程
LongVILA提出了一个五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调,确保模型能逐步适应并优化长视频理解。
二、技术原理
LongVILA的核心技术包括长上下文多模态序列并行性(MM-SP)和五阶段训练流程。
1. MM-SP系统
MM-SP系统允许在多个GPU上分布并同时处理长视频的大量帧,提高了训练效率和扩展性。
2. 五阶段训练流程
- 多模态对齐:在训练的第一阶段,模型学习将视觉信息与语言信息对齐。
- 大规模预训练:使用大量数据对模型进行预训练,学习通用的多模态表示。
- 短监督微调:在短监督数据上进行微调,提高模型对短视频内容的理解和生成字幕的能力。
- 上下文扩展:通过继续预训练来增加模型能够处理的上下文长度,能处理更长的视频序列。
- 长监督微调:在长视频数据上进行微调,进一步提升模型对长视频内容的理解和字幕生成的准确性。
三、应用场景
LongVILA的应用场景广泛,包括视频字幕生成、视频内容分析、视频问答系统、视频摘要和高亮、视频监控分析以及自动驾驶车辆等。
1. 视频字幕生成
自动为长视频生成准确的字幕,包括讲座、会议、电影、体育赛事等。
2. 视频内容分析
对视频内容进行深入分析,提取关键信息和事件,用于内容推荐、搜索和索引。
3. 视频问答系统
构建能理解视频内容并回答相关问题的系统,提高视频交互性。
四、项目地址
LongVILA的GitHub仓库地址为:https://github.com/NVlabs/VILA,技术论文可在arXiv上查阅:https://arxiv.org/pdf/2408.10188。
LongVILA的问世,标志着我国在视觉语言AI领域的研究取得了重要进展,为视频内容理解和分析提供了新的可能性。
Views: 2
