百度发布Steamer-I2V：图像秒变视频！

北京 – 百度近日正式推出其最新的图像到视频生成模型——Steamer-I2V。这款AI模型凭借其卓越的视觉生成能力，在国际权威的视频生成评测平台VBench上荣获榜首，引发业界广泛关注。Steamer-I2V不仅能够将静态图像转化为动态视频，更在视觉控制精度、高清画质以及对中文语义的理解方面展现出强大实力。

Steamer-I2V的核心优势在于其细粒度的视频结构化描述语言，能够实现像素级的画面控制和电影级的构图效果。该模型支持多模态输入，包括中文文本提示、参考图像等，确保生成内容与用户创意高度一致。此外，Steamer-I2V采用先进的Transformer扩散架构，能够生成高达1080P分辨率的高清视频，并通过多阶段监督训练、美学条件微调等策略，优化视频的时间一致性和运动规律性，使视频流畅连贯。

技术原理与功能亮点

Steamer-I2V的技术核心在于以下几个方面：

Transformer扩散架构： 采用前沿的Transformer扩散架构，通过扩散模型的逐步去噪过程，生成连贯且逼真的视频帧序列，结合Transformer的强大建模能力，确保视频在时间维度上的连贯性和视觉上的流畅性。
多阶段优化策略： 实施了多种优化策略，包括从低到高分辨率和帧率的逐步监督微调（SFT）、基于条件控制的微调（CFT）策略以及多目标强化学习，提升生成视频的质量和精度。
提示增强技术： 通过多模态大模型分析输入图像，增强原始提示词，预测视频帧中场景或物体的时间演变。
中文语义精准理解： 构建了亿级规模的中文多模态训练数据库，通过“筛选-净化-配比”三级数据优化体系，确保文本指令与视觉元素的语义对齐精度。

Steamer-I2V的主要功能包括：

图像到视频生成： 将静态图像转换为动态视频，赋予图像以时间和空间上的动态变化，创造出具有故事性和视觉吸引力的视频内容。
细粒度控制： 通过精心设计的拍摄视角和视频描述语言，实现像素级的画面控制，确保生成视频中的视觉细节、物体运动轨迹、风格属性和镜头语言严格符合预设要求。
多模态输入支持： 支持中文文本提示、参考图像和引导信号等多种输入方式，用户可以通过这些输入精确指导视频生成，确保生成内容与创意意图高度一致。
高清视频生成： 基于先进的 Transformer 扩散架构，生成高达 1080P 分辨率的高清视频，具备平滑的过渡效果和逼真的物理运动模式。
优化动态效果： 通过多阶段监督训练、美学条件微调和多目标强化学习等技术，模型在时间一致性、电影构图和运动规律性方面进行了针对性优化，确保视频在逻辑上连贯且视觉上连续。
大规模中文多模态数据库： 基于亿级规模的中文多模态训练数据，通过“筛选-净化-配比”的三级数据优化系统，确保文本指令与视觉元素之间的语义对齐精度。

应用场景广泛

Steamer-I2V的应用场景十分广泛，包括：