好的,下面是一篇根据你提供的资料,并按照你提出的要求撰写的新闻报道:

字节跳动“眼镜猴”再进化:Tarsier2视频理解大模型挑战行业标杆

引言:

在人工智能领域,视频理解一直是备受瞩目的挑战。随着短视频、直播等形式的兴起,能够准确理解视频内容的技术变得愈发重要。近日,字节跳动研究院(ByteDance Research)发布了其视频理解大模型“眼镜猴”(Tarsier)的第二代模型Tarsier2,引发了业界广泛关注。这款新模型不仅在性能上取得了显著提升,更在多个公开基准测试中超越了同类开源模型,甚至在某些方面逼近了闭源巨头,为视频理解领域带来了新的突破。

主体:

Tarsier2:从“看懂”到“理解”的飞跃

Tarsier2的发布,标志着字节跳动在视频理解技术上的又一次重大进展。此前,Tarsier-7B/34B模型已在视频描述领域取得了领先地位,仅次于Gemini-1.5-Pro和GPT-4o等闭源模型。而此次发布的Tarsier2,则在性能和理解能力上更上一层楼。

为了直观展示Tarsier2的强大能力,研究团队展示了其对经典影视片段的理解。例如,对于《燕子,没有你我怎么活》和《曹操盖饭》等复杂场景,Tarsier2不仅能够精确捕捉人物动作,还能结合字幕信息,深入分析人物动机、心理和情节发展。这表明,Tarsier2已经具备了从“看懂”到“理解”的飞跃,能够更深入地理解视频内容的含义。

技术解析:预训练与后训练双管齐下

Tarsier2的强大能力并非偶然,而是得益于其在预训练和后训练两个阶段的精益求精。

  • 预训练:海量数据与精细筛选

    Tarsier2在4000万个互联网视频-文本数据上进行预训练。与文本模型不同,视频理解模型对高质量的视频-文本对齐数据有着极高的依赖。为了解决数据获取难题,研究团队通过以下两个途径:

    1. 数据收集: Tarsier2大规模收集互联网上的视频-文本数据,涵盖电影、电视剧、短视频等多种来源,以及人机交互、自动驾驶等多个领域。尤其值得一提的是,Tarsier2筛选了大量的影视剧解说视频,这些视频不仅帮助模型学习简单的动作和事件,还能辅助模型理解更高层次的情节信息。
    2. 数据筛选: Tarsier2设计了一套严谨的流程,对训练数据进行精细筛选。该流程包括“分镜”、“过滤”和“合并”三个阶段,确保训练数据的质量和多样性。
  • 后训练:SFT与DPO双重优化

    后训练阶段分为SFT(监督微调)和DPO(直接偏好优化)两个阶段。

    1. SFT: 在人工标注的视频描述数据上进行训练,并在视频描述中引入针对每个子事件的具体定位信息,以强化模型对时序信息与视觉特征的关注度,增强文本与视觉信号的对齐。
    2. DPO: 在自动化构造的正负样本上进行训练。正样本来源于模型对原始视频的预测结果,负样本来源于模型对经过预先设计的随机扰动的视频的预测结果。这种方式使得模型在描述视频时更加准确和全面,减少了幻觉的产生。

性能测评:超越同类,逼近闭源

为了验证Tarsier2的性能,研究团队在19个视频理解公开基准上进行了测试,并与10多个最新的开源模型(如Qwen2-VL、InternVL2.5、LLaVA-Video等)以及闭源模型(如Gemini-1.5、GPT-4o)进行了对比。结果显示,Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现亮眼。

  • 在视频描述评测集DREAM-1K上,Tarsier2相比GPT-4o提升了2.8%,相比Gemini-1.5-Pro提升了5.8%。
  • 在人工评估中,Tarsier2-7b相比GPT-4o的优势占比为7.8%,相比Gemini-1.5-Pro的优势占比为12.3%。
  • 此外,Tarsier2还在10多个视频理解公开榜单上超越了Qwen2-VL-7B、InternVL2.5-8B等同规模的模型,取得了SOTA成绩。

应用前景:赋能多领域,助力智能升级

除了在通用视频理解任务上表现出色,Tarsier2作为基座模型,在机器人、智能驾驶等下游任务场景中也展现出了极强的泛化能力。

  • 机器人领域: Tarsier2能够为指定的任务生成详细的步骤指令,帮助机器人更好地理解和执行任务。
  • 智能驾驶领域: Tarsier2能够帮助车辆识别道路情况,并辅助进行决策,提升驾驶安全性。

结论:

Tarsier2的发布,不仅是字节跳动在视频理解技术上的又一次重大突破,也为整个行业带来了新的启示。这款轻量级、高性能的模型,通过精细的预训练和后训练,实现了从“看懂”到“理解”的飞跃,并在多个公开基准测试中取得了领先地位。随着技术的不断发展,我们有理由相信,Tarsier2将在更多领域发挥重要作用,推动人工智能的智能化升级。

参考文献:

(注:以上参考文献格式为示例,可根据实际情况进行调整。)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注