字节跳动重磅发布Seedance 1.0视频生成模型

北京 – 2024年5月16日 – 字节跳动旗下Seed团队正式推出其视频生成基础模型Seedance 1.0，该模型凭借其强大的多镜头叙事能力、流畅稳定的运动表现以及对多种风格创作的支持，在AI视频生成领域引起广泛关注。在第三方评测榜单Artificial Analysis上，Seedance 1.0在文生视频（T2V）和图生视频（I2V）两个任务中均位居首位，展现了其在该领域的强大实力。

Seedance 1.0的核心功能与技术亮点

Seedance 1.0并非简单的视频生成工具，而是具备以下几个关键特性：

多镜头叙事能力： 区别于以往的单镜头生成，Seedance 1.0能够生成包含多个连贯镜头的叙事性视频，并能流畅地进行远、中、近景的切换，保证核心主体、视觉风格和整体氛围的高度一致。这为影视制作、广告营销等领域提供了更广阔的创作空间。
流畅稳定的运动表现： 该模型能够生成大幅度运动的视频，无论是细微的表情变化还是动态的场景，都能保持高水平的稳定性和物理真实感。这意味着生成的视频不再是僵硬的“PPT式”动画，而是更接近真实世界的动态影像。
多种风格创作： Seedance 1.0支持多种风格的视频生成，包括写实、动漫、影视、广告等，满足不同用户的个性化需求。
精准的语义理解与指令遵循： 模型能够精准解析复杂的自然语言指令，稳定控制多主体互动、多重动作组合，并支持丰富的运镜选择。这使得用户可以通过简单的文字描述，就能生成符合预期的复杂场景视频。
高速推理与低成本： 通过对模型结构的优化和推理加速，Seedance 1.0能够在短时间内完成视频创作。官方数据显示，基于NVIDIA L20测试，生成5秒1080p分辨率的视频仅需41.4秒，显著低于其他同类模型。

在技术层面，Seedance 1.0主要采用了以下策略：

多源数据整理与精准描述模型： 字节跳动构建了大规模、多样化的视频数据集，并训练了一个动静态特征融合的密集描述模型，用于生成精准的视频描述（Caption），作为训练数据。
高效的预训练框架： 构建解耦空间层和时间层的扩散Transformer模型，提升训练和推理效率，并增强模型的多镜头生成能力和多模态理解力。
后训练优化与复合奖励系统： 通过高质量视频-文本对数据集进行微调，并构建包括基础奖励模型、运动奖励模型和美学奖励模型在内的复合奖励系统，提升模型在图文对齐、运动质量和画面美感上的表现。
极致推理加速： 采用分段轨迹一致性、分数匹配与人类偏好引导的对抗蒸馏机制，以及通道结构细化的轻量级VAE解码器，实现生成质量与速度的更优协同。

Seedance 1.0的应用前景

Seedance 1.0的推出，无疑将对多个行业产生深远影响：