北京 – 阶跃星辰今日正式发布其视频生成模型Step-Video V2版本,标志着AI在视频创作领域又迈出了重要一步。这款新模型在参数量、语义理解和指令遵循能力上实现了显著提升,为用户带来更逼真、更具创造力的视频生成体验。用户现可通过跃问网页端申请试用。
Step-Video V2的核心升级体现在三大技术层面:
- VAE模型优化: V2版本采用了压缩比更高的VAE模型,将空间压缩16×16倍,时间压缩8倍。这一改进在保证重构质量的前提下,有效降低了模型计算复杂度,显著提升了生成效率。
- DiT架构与强化学习融合: 阶跃星辰对DiT模型进行了深度系统优化,包括超参优化、算法优化和并行优化,从系统层面保证了模型训练的高效性和稳定性。同时,引入针对视频生成的强化学习优化算法,进一步提升了视频生成质量,强化了生成视频的合理性和稳定性,使视频中的运动更流畅自然,细节更丰富细腻。
- 多模态大模型与视频知识库: V2版本采用了自研多模态理解大模型,能够对视频内容、镜头语言和文字实体进行精准描述。结合自建结构化视频知识库,为视频生成训练提供高质量多样化的视频数据,使模型能够更深入地理解视频内容,生成的视频更加符合语义,在细节上贴近真实世界。
这些技术升级使得Step-Video V2在以下几个方面表现突出:
- 复杂运动的流畅呈现: 无论是芭蕾舞、空手道、羽毛球还是跳水等复杂运动场景,V2版本都能精准捕捉并流畅呈现。
- 人物表情的细腻传神: 无论是真实人物还是虚构角色,V2版本都能精准捕捉人物神韵,细腻呈现每一处细节。
- 镜头语言的丰富多样: V2版本支持推、拉、摇、移、旋转、跟随等多种镜头运动方式,以及不同景别之间的切换,为视频创作带来更多可能性。
- 基础文字的精准生成: V2版本新增支持视频内基础文字的精准生成与自然融入,生成效果显著优于前代模型。
阶跃星辰表示,Step-Video V2的发布是其在AI视频生成领域持续创新和积累的成果。通过不断优化模型架构、引入先进算法和构建高质量数据集,阶跃星辰致力于打造更强大的真实世界模拟器,为用户提供更便捷、更高效的视频创作工具。
Step-Video V2的发布,无疑将推动AI视频生成技术的发展,为内容创作、教育、娱乐等领域带来新的机遇。随着技术的不断进步,我们有理由期待AI在视频创作领域发挥更大的作用,为人类创造更丰富多彩的视觉体验。
参考文献:
- 阶跃星辰官方网站:https://www.stepfunc.com/
- 跃问网页端:https://yuewen.cn/videos
Views: 2
