字节跳动入局！Seaweed-7B视频生成模型发布

北京—— 字节跳动近日发布了其最新的视频生成模型Seaweed-7B，这款拥有70亿参数的模型旨在以更低的成本实现高质量的视频内容创作。Seaweed-7B支持从文本、图像或音频生成视频，并具备生成长达20秒的单镜头视频，甚至通过扩展技术生成长达一分钟视频的能力。

Seaweed-7B的核心功能包括：

文本到视频： 根据文本描述生成匹配的视频，支持复杂的动作和场景。
图像到视频： 以图像作为第一帧，生成风格一致的视频，或指定首尾帧生成过渡视频。
音频驱动视频生成： 根据音频输入生成匹配的视频，确保口型和动作同步。
长镜头生成： 支持生成长达20秒的单镜头视频，或扩展至一分钟。
连贯的故事叙述： 生成多镜头长视频，维持场景和镜头之间的连贯性。
实时生成： 支持在1280×720分辨率和24fps下实时生成视频。
高分辨率和超分辨率： 支持生成高达1280×720分辨率的视频，并上采样至2K QHD。
相机控制和世界探索： 支持精确的相机控制，提供互动式世界探索功能。
物理一致性增强： 通过计算机生成的合成视频进行后训练，增强物理一致性和3D效果。

技术原理揭秘

Seaweed-7B的技术核心在于变分自编码器（VAE）和扩散变换器（DiT）的结合。VAE负责将视频数据压缩到低维潜在空间，并从潜在空间重建原始视频。该模型采用因果3D卷积架构，支持图像和视频的统一编码，避免边界闪烁问题。混合分辨率训练进一步提升了高分辨率视频的重建质量。

DiT则在VAE的潜在空间中生成视频内容，通过逐步去噪生成高质量视频。混合流结构结合了全注意力和窗口注意力机制，提高了训练效率和生成质量。多模态旋转位置编码（MM-RoPE）增强了文本和视频之间的位置信息融合。

为了优化训练过程，Seaweed-7B采用了多阶段训练策略，从低分辨率图像开始逐步过渡到高分辨率视频，并优化GPU资源分配。多级激活检查点（MLAC）减少了GPU内存占用和计算开销。融合CUDA内核优化I/O操作，提高了训练和推理效率。扩散蒸馏技术减少了生成所需的函数评估次数（NFE），加速了推理过程。

应用场景广泛

Seaweed-7B的应用场景十分广泛，包括：