字节跳动Seedance 1.0发布：1080p多镜头视频生成进入新时代

北京 – 字节跳动 Seed 团队近日正式发布了其最新的视频生成基础模型 Seedance 1.0，标志着该公司在人工智能视频创作领域迈出了重要一步。该模型支持文字和图片输入，能够生成多镜头无缝切换的 1080p 高品质视频，并在第三方评测中表现出色。

Seedance 1.0 的核心亮点在于其原生多镜头叙事能力。与以往的视频生成模型不同，Seedance 1.0 能够支持 2-3 个镜头的切换，生成 10 秒的视频，并实现远景、中景和近景之间的自然过渡。这意味着用户可以通过简单的文字提示，创作出更具叙事性和电影感的视频内容。例如，输入“女孩弹钢琴，多镜头切换，电影质感”这样的提示，即可生成具有多个视角的钢琴演奏视频。

除了多镜头叙事能力外，Seedance 1.0 在运动生成效果方面也得到了显著提升。该模型能够生成更自然、更稳定的画面和主体动态，并更好地控制细节，降低生成崩坏率。例如，它可以生成滑雪者在雪地上飞驰的场景，并能捕捉到滑雪者转弯时扬起的雪雾。

Seedance 1.0 还支持多种风格创作，能够精准响应指令，生成写实、动漫、影视、广告等不同风格的高品质视频内容。这为用户提供了更大的创作自由，使其能够根据自己的需求定制视频风格。

在推理速度方面，Seedance 1.0 也表现出色。据官方数据，该模型仅需 40 多秒即可完成 5 秒 1080p 视频的生成任务。这得益于字节跳动 Seed 团队对模型结构的精细设计和极致的推理加速。

在第三方评测榜单 Artificial Analysis 上，Seedance 1.0 在文生视频和图生视频两个任务中均位居首位，证明了其在视频生成领域的领先地位。

为了实现这些突破，字节跳动 Seed 团队在数据构建和模型架构方面进行了大量的创新。

数据构建方面，团队主要聚焦于视频多源采集与描述说明（Caption）获取，通过多阶段的筛选和均衡，提升了模型对动态视频中的主体、动作、场景、风格以及 Prompt 的理解力。他们构建了多种类型、风格、来源的大规模视频数据集，并引入自动镜头边界检测技术，精准分割视频片段。此外，团队还训练了“精准描述模型”来生成视频描述（Caption），作为 Seedance 1.0 的训练数据。

模型架构方面，团队构建了解耦空间层和时间层的扩散 Transformer 模型，以提升训练和推理的效率。他们还为文本 token 添加了额外的一维位置编码，并在拼接后的序列中，引入了 3D 多模态旋转位置编码（MM-RoPE）。此外，团队还使用二元掩码来指示哪些帧应遵循生成中的控制条件，实现了统一框架下，不同生成任务（如文本到图像、文本生视频和图像生视频）之间相互学习。

目前，Seedance 1.0 已公开技术报告，并通过即梦、豆包及火山引擎 API 接口开放使用。

Seedance 1.0 的发布，无疑将推动视频生成技术的发展，并为内容创作者提供更强大的工具。随着人工智能技术的不断进步，我们有理由相信，未来的视频创作将变得更加便捷和高效。

参考文献：