字节跳动联手新加坡国立大学，发布实时视频解说模型LiveCC

摘要： 字节跳动与新加坡国立大学Show Lab团队联合推出实时视频解说模型LiveCC，该模型基于大规模自动语音识别（ASR）字幕训练，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。LiveCC的开源，有望赋能体育赛事、新闻报道、教育培训等多个领域，提升实时互动体验。

北京 – 在人工智能技术日新月异的今天，实时视频解说作为一种新兴的应用场景，正受到越来越多的关注。近日，字节跳动联合新加坡国立大学Show Lab团队正式开源了名为LiveCC的实时视频解说模型，为这一领域注入了新的活力。该模型凭借其低延迟、高质量的生成能力，以及对多种视频类型的良好适应性，有望在多个行业得到广泛应用。

LiveCC的核心优势在于其强大的实时视频评论能力。它能够根据视频内容生成连续的、与人类类似的实时评论，适用于体育赛事、新闻播报、教学视频等多种场景。例如，在体育赛事直播中，LiveCC可以像专业解说员一样，实时分析比赛进程，解读战术策略，为观众带来更深入的观赛体验。在新闻报道中，LiveCC可以辅助记者进行实时新闻解读，提升报道的深度和专业性。

技术原理：流式训练与大规模数据集

LiveCC的成功离不开其独特的技术原理。该模型采用了流式训练方法，将自动语音识别（ASR）的单词与视频帧按照时间戳密集交错，让模型学习到时间对齐的视觉-语言关系。这种方法模拟了人类观看视频时的实时感知过程，使得模型能够生成与视频内容紧密相关的评论。

为了保证模型的训练效果，LiveCC团队构建了两个大规模数据集：Live-CC-5M和Live-WhisperX-526K。这两个数据集均从YouTube视频中提取的ASR字幕构建，为模型提供了丰富的训练素材。其中，Live-CC-5M用于预训练，而Live-WhisperX-526K则用于高质量监督微调。

在模型架构方面，LiveCC基于Qwen2-VL模型架构，结合视觉编码器和语言模型，处理视频帧和文本信息。模型基于自回归的方式预测文本令牌，将视频令牌作为非预测输入。为了提高实时推理效率，LiveCC模型缓存之前的提示、视觉帧和生成的文本，加速语言解码。

应用场景：赋能多行业实时互动

LiveCC的应用场景十分广泛。除了前文提到的体育赛事和新闻报道外，它还可以应用于教育领域，为教学视频生成讲解，辅助技能培训；应用于娱乐媒体，为影视内容提供实时剧情解读，增加互动性；甚至可以应用于智能助手，结合视频内容提供实时信息，提升交互体验。

开源地址：