突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
人工智能数字化转型汽车科技交叉前沿
机器之心报道
2024/10/21
视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为了解决这一问题,来自字节跳动、南洋理工大学 S-Lab 和北京邮电大学的研究人员提出了一种替代方法,创建了一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。该数据集包含详细的视频描述、开放式问答(QA)和多项选择题。通过在该数据集和现有的视觉指令微调数据上训练模型,研究人员推出了新的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。
论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA
论文链接:https://arxiv.org/pdf/2410.02713
项目主页:https://llava-vl.github.io/blog/2024-09-30-llava-video/
LLaVA-Video 的交互性演示
为了更好地理解 LLaVA-Video 在真实世界中与人交互的能力,研究人员提供了一组交互性演示:
- LLaVA-Video 教我下载 TikTok: 演示展示了 LLaVA-Video如何根据用户指令,提供下载 TikTok 的步骤。
- LLaVA-Video 描述我的客厅,并指导我找健康饮料: 演示展示了 LLaVA-Video 如何理解用户环境,并根据用户需求提供相关信息和指导。
视频指令跟随数据合成
一个高质量的视频指令跟随数据集对于开发有效的视频语言模型至关重要。研究人员确定了构建此类数据集的关键因素:确保视频内容和语言注释的丰富性和多样性。
数据集构建流程:
- 视频来源选择: 研究人员对现有的视频基准进行了全面调查,涵盖了各种公共视频描述和问答数据集,并确定了十个独特的视频来源,这些来源为超过 40 个视频语言基准提供了数据。
- 视频选择: 从每个来源中,研究人员选择具有显著时间动态的视频。
- 自动生成视频详细描述: 研究人员使用 GPT-4o 系统地描述视频内容,并按顺序描述视频,以克服 GPT-4o 输入大小限制。
- 自动生成视频问答: 研究人员参考公共视频问答基准,将问题组织为 16种特定类别,并使用 GPT-4o 为每种问题类型生成问答对。
数据集统计
研究人员最终得到总共 178K 个视频和 1.3M 个指令跟随样本,构成一个平衡且全面的数据集。
LLaVA-Video 的优势
- 合成数据有效性: LLaVA-Video 在多个视频基准上表现出色,证明了合成数据集的有效性。
- 丰富且多样化的数据: LLaVA-Video 数据集包含详细的视频描述、开放式问答和多项选择题,确保了数据的多样性和丰富性。
- 强大的指令跟随能力: LLaVA-Video 能够理解用户指令,并提供相关信息和指导,展示了其强大的指令跟随能力。
结论
LLaVA-Video 的出现为视频多模态大模型的发展提供了一种新的思路,证明了合成数据在训练 LMMs 方面的有效性。该项目已经开源,为研究人员提供了宝贵的资源,并将推动视频多模态大模型的进一步发展。
参考文献
作者:
- Yuanhan Zhang (https://zhangyuanhan-ai.github.io/)
- Ziwei Liu (https://liuziwei7.github.io/)
- Chunyuan Li (https://chunyuan.li/)
- Jinming Wu
- Bo Li
- Wei Li
- Zejun Ma
Views: 2