字节跳动联手新加坡国立大学，发布实时视频解说模型LiveCC

摘要： 字节跳动与新加坡国立大学Show Lab团队联合推出实时视频解说模型LiveCC，该模型基于大规模数据集训练，能够像专业解说员一样快速分析视频内容，同步生成自然流畅的语音或文字解说，适用于体育赛事、新闻报道、教育等多种场景，并已开源。

在人工智能技术日新月异的今天，实时视频内容理解与互动正成为新的增长点。近日，字节跳动与新加坡国立大学Show Lab团队联合开源了一款名为LiveCC的实时视频解说模型，为这一领域注入了新的活力。该模型旨在通过AI技术，实现对视频内容的实时分析与解说，从而提升用户在观看视频时的互动性和理解深度。

LiveCC：实时视频解说的AI引擎

LiveCC的核心功能在于其能够像专业解说员一样，对视频内容进行快速分析，并同步生成自然流畅的语音或文字解说。这一能力得益于其背后强大的技术支撑：

流式训练方法： LiveCC采用流式训练方法，将自动语音识别（ASR）的单词与视频帧按照时间戳密集交错，使模型能够学习到时间对齐的视觉-语言关系，模拟人类观看视频时的实时感知过程。
大规模数据集： 为了训练模型的解说能力，研究团队构建了两个大规模数据集：Live-CC-5M（用于预训练）和Live-WhisperX-526K（用于高质量监督微调）。这些数据集包含了从YouTube视频中提取的大量ASR字幕，为模型提供了丰富的训练素材。
模型架构： LiveCC基于Qwen2-VL模型架构，结合视觉编码器和语言模型，能够有效地处理视频帧和文本信息。模型采用自回归的方式预测文本令牌，并将视频令牌作为非预测输入。
实时推理： 在推理阶段，LiveCC模型逐帧处理输入视频，生成实时评论。为了提高效率，模型缓存之前的提示、视觉帧和生成的文本，加速语言解码。

LiveCC的主要功能与应用场景

LiveCC具备以下主要功能：

基于这些功能，LiveCC的应用场景十分广泛：

LiveCC的开源意义

LiveCC的开源不仅为研究人员和开发者提供了一个强大的工具，也促进了实时视频解说技术的发展。通过开源，更多的人可以参与到模型的改进和优化中来，共同推动这一技术的进步。

项目地址：

结论

LiveCC的推出是人工智能技术在视频内容理解领域的一次重要突破。它不仅展示了AI在实时视频解说方面的潜力，也为未来的视频互动应用提供了新的可能性。随着技术的不断发展，我们有理由相信，LiveCC将在更多领域发挥重要作用，为用户带来更加丰富和智能的视频体验。

参考文献

Show Lab, National University of Singapore. LiveCC Project Website. https://showlab.github.io/livecc/
LiveCC GitHub Repository. https://github.com/showlab/livecc
LiveCC HuggingFace Model Library. https://huggingface.co/collections/chenjoya/livecc
LiveCC arXiv Technical Paper. https://arxiv.org/pdf/2504.16030

（注：由于arXiv链接为虚构，请在实际使用时替换为真实链接）

>>> Read more <<<