字节跳动联手新加坡国立大学，发布实时视频解说模型LiveCC

北京 – 人工智能（AI）技术正在不断渗透到我们生活的方方面面。近日，字节跳动联合新加坡国立大学Show Lab团队，共同推出了一款名为LiveCC的实时视频解说模型，并宣布开源。这一举措无疑将为视频内容理解、实时评论等领域带来新的发展机遇。

LiveCC的核心功能在于能够像专业解说员一样，快速分析视频内容，并同步生成自然流畅的语音或文字解说。该模型基于自动语音识别（ASR）字幕进行大规模训练，能够实时地对视频内容进行理解和分析，并生成相应的解说内容。

LiveCC的技术亮点：数据集与模型架构

为了训练出高效的实时视频解说模型，LiveCC团队构建了两个大规模数据集：Live-CC-5M和Live-WhisperX-526K。前者用于预训练，后者则用于高质量的监督微调。这些数据集从YouTube视频中提取ASR字幕，为模型提供了丰富的训练素材。

在模型架构方面，LiveCC基于Qwen2-VL模型，结合视觉编码器和语言模型，能够有效地处理视频帧和文本信息。模型采用自回归的方式预测文本令牌，并将视频令牌作为非预测输入，从而实现对视频内容的实时理解和解说。

LiveCC的应用场景：从体育赛事到智能助手

LiveCC的应用场景十分广泛，涵盖了体育赛事、新闻报道、教育领域、娱乐媒体以及智能助手等多个领域。

体育赛事： LiveCC能够提供实时的赛事评论和分析，增强观众的观看体验。
新闻报道： LiveCC可以辅助实时新闻解读，提升报道的深度和专业性。
教育领域： LiveCC可以为教学视频生成讲解，辅助技能培训。
娱乐媒体： LiveCC可以为影视内容提供实时剧情解读，增加互动性。
智能助手： LiveCC结合视频内容提供实时信息，提升交互体验。

LiveCC的性能评估：LiveSports-3K基准测试

为了评估LiveCC的实时评论能力，研究团队设计了LiveSports-3K基准测试，并采用LLM-as-a-judge框架比较不同模型生成的评论质量。实验结果表明，LiveCC在实时视频评论和视频问答任务上表现出色，展现出低延迟和高质量的生成能力。模型能够以极低的延迟（每帧小于0.5秒）处理视频流，支持实时应用。

开源地址：

项目官网： https://showlab.github.io/livecc/
GitHub仓库： https://github.com/showlab/livecc
HuggingFace模型库： https://huggingface.co/collections/chenjoya/livecc
arXiv技术论文： https://arxiv.org/pdf/2504.16030
在线体验Demo： https://huggingface.co/spaces/chenjoya/LiveCC

总结与展望

字节跳动与新加坡国立大学联合开源的LiveCC实时视频解说模型，不仅展示了AI技术在视频内容理解领域的巨大潜力，也为相关研究和应用提供了宝贵的资源。随着技术的不断发展，我们有理由相信，LiveCC将在更多领域发挥重要作用，为人们带来更加便捷、高效的视频体验。

参考文献

Show Lab. (n.d.). LiveCC: Real-time Video Commenting. Retrieved from https://showlab.github.io/livecc/
GitHub. (n.d.). showlab/livecc. Retrieved from https://github.com/showlab/livecc
Hugging Face. (n.d.). chenjoya/LiveCC. Retrieved from https://huggingface.co/spaces/chenjoya/LiveCC
arXiv. (n.d.). LiveCC: Real-time Video Commenting. Retrieved from https://arxiv.org/pdf/2504.16030

（完）

>>> Read more <<<