北航TinyLLaVA-Video开源：小模型，大能量！

北京，2025年2月10日 – 在人工智能领域，多模态大模型正以前所未有的速度发展，尤其是在视频理解技术方面。然而，高昂的计算资源成本一直是阻碍小型科研团队进入该领域的壁垒。近日，北京航空航天大学的研究团队推出了一款名为TinyLLaVA-Video的小尺寸简易视频理解框架，以其开源、高效的特性，有望打破这一瓶颈，为资源有限的研究者们带来福音。

TinyLLaVA-Video基于TinyLLaVA_Factory项目，不仅开源了模型、代码和训练数据，更令人惊喜的是，其整体参数量不超过4B的模型，在多个视频理解benchmark上，性能竟然超越了部分7B+参数量的模型。这一突破性的成果，无疑为轻量级视频理解模型的发展注入了新的活力。

开源精神：降低门槛，促进创新

与许多仅开源模型权重的项目不同，TinyLLaVA-Video秉承了TinyLLaVA_Factory全面开源的理念。这意味着研究人员可以自由地获取完整的模型权重、训练代码和训练数据集，并根据自身需求，灵活替换语言模型、视觉编码器等核心组件，甚至自定义训练策略。

“这种开放性设计极大地降低了小规模研究团队进入视频理解研究领域的门槛，”一位业内专家表示，“它为未来的轻量级视频理解模型的训练范式与架构创新探索提供了一个宝贵的实验平台。”

架构精简：性能不打折

TinyLLaVA-Video沿用了LLaVA类多模态模型常见的Vision Tower+Connector+LLM框架，并采用预训练对齐与监督微调的两阶段训练策略。项目中所采用的预训练模型组件均遵循开源协议，包括Qwen2.5-3B等语言模型和SigLIP等视觉编码器，确保了实验的可复现性。

为了解决长序列信息处理的难题，TinyLLaVA-Video巧妙地使用视频级Resampler作为Connector，对齐视觉和语言，从而减少输入至语言模型的Visual Token数量。这种处理方式使得模型能够支持灵活的视频采样策略，研究者可以根据视频类型与使用需求进行fps采样或均匀帧采样，设置不同的视频采样帧数。

尽管模型架构精简，训练数据规模也得到了控制，TinyLLaVA-Video的性能却依然可观。实验结果表明，该模型在MLVU、Video-MME等多个视频理解基准测试集上的表现，优于同等训练数据量级下的7B+模型，充分验证了该框架的有效性。

未来展望：无限可能

TinyLLaVA-Video的成功，证明了小尺寸视频理解模型在计算成本有限的环境下，依然具有广阔的发展空间。北京航空航天大学的研究团队也进行了大量实验，系统性地探索了不同配置下的模型性能，为研究者提供了优化模型结构的实证数据。

“未来，计算资源有限的研究者们可以基于该工作，进一步优化模型结构和训练策略，以推动小尺寸视频理解模型的持续发展，为资源受限环境下的多模态研究提供更多可能性，”该研究团队负责人表示。

TinyLLaVA-Video的推出，不仅是技术上的突破，更是开源精神的体现。它为视频理解领域的研究者们提供了一个强大的工具，有望加速该领域的发展，并为人工智能技术的普及贡献力量。

参考文献：