北京 – 字节跳动 Seed 团队近日正式发布了其最新的视频生成基础模型 Seedance 1.0,标志着该公司在人工智能视频创作领域迈出了重要一步。该模型支持文字和图片输入,能够生成多镜头无缝切换的 1080p 高品质视频,并在第三方评测中表现出色。

Seedance 1.0 的核心亮点在于其原生多镜头叙事能力。与以往的视频生成模型不同,Seedance 1.0 能够支持 2-3 个镜头的切换,生成 10 秒的视频,并实现远景、中景和近景之间的自然过渡。这意味着用户可以通过简单的文字提示,创作出更具叙事性和电影感的视频内容。例如,输入“女孩弹钢琴,多镜头切换,电影质感”这样的提示,即可生成具有多个视角的钢琴演奏视频。

除了多镜头叙事能力外,Seedance 1.0 在运动生成效果方面也得到了显著提升。该模型能够生成更自然、更稳定的画面和主体动态,并更好地控制细节,降低生成崩坏率。例如,它可以生成滑雪者在雪地上飞驰的场景,并能捕捉到滑雪者转弯时扬起的雪雾。

Seedance 1.0 还支持多种风格创作,能够精准响应指令,生成写实、动漫、影视、广告等不同风格的高品质视频内容。这为用户提供了更大的创作自由,使其能够根据自己的需求定制视频风格。

推理速度方面,Seedance 1.0 也表现出色。据官方数据,该模型仅需 40 多秒即可完成 5 秒 1080p 视频的生成任务。这得益于字节跳动 Seed 团队对模型结构的精细设计和极致的推理加速。

在第三方评测榜单 Artificial Analysis 上,Seedance 1.0 在文生视频和图生视频两个任务中均位居首位,证明了其在视频生成领域的领先地位。

为了实现这些突破,字节跳动 Seed 团队在数据构建和模型架构方面进行了大量的创新。

数据构建方面,团队主要聚焦于视频多源采集与描述说明(Caption)获取,通过多阶段的筛选和均衡,提升了模型对动态视频中的主体、动作、场景、风格以及 Prompt 的理解力。他们构建了多种类型、风格、来源的大规模视频数据集,并引入自动镜头边界检测技术,精准分割视频片段。此外,团队还训练了“精准描述模型”来生成视频描述(Caption),作为 Seedance 1.0 的训练数据。

模型架构方面,团队构建了解耦空间层和时间层的扩散 Transformer 模型,以提升训练和推理的效率。他们还为文本 token 添加了额外的一维位置编码,并在拼接后的序列中,引入了 3D 多模态旋转位置编码(MM-RoPE)。此外,团队还使用二元掩码来指示哪些帧应遵循生成中的控制条件,实现了统一框架下,不同生成任务(如文本到图像、文本生视频和图像生视频)之间相互学习。

目前,Seedance 1.0 已公开技术报告,并通过即梦、豆包及火山引擎 API 接口开放使用。

Seedance 1.0 的发布,无疑将推动视频生成技术的发展,并为内容创作者提供更强大的工具。随着人工智能技术的不断进步,我们有理由相信,未来的视频创作将变得更加便捷和高效。

参考文献:

  • 字节跳动Seed. (2024). Seedance 1.0 视频生成模型技术报告. Retrieved from https://seed.bytedance.com/seedance
  • Artificial Analysis 文生视频榜单
  • Artificial Analysis 图生视频榜单


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注