黄山的油菜花黄山的油菜花

摘要: 中国科技公司潞晨科技近日开源了其最新的AI视频生成模型Open-Sora 2.0。该模型以仅110亿参数的规模,在性能上媲美甚至超越了HunyuanVideo和30B参数的Step-Video等主流闭源模型,同时大幅降低了训练成本。Open-Sora 2.0的开源,为AI视频生成领域带来了新的活力,也为低成本、高性能的视频生成提供了新的可能性。

北京报道 – 在人工智能视频生成领域,OpenAI的Sora一直被视为行业标杆。然而,高昂的训练成本和闭源的特性,也让许多研究者和开发者望而却步。近日,中国科技公司潞晨科技(HPC-AI Tech)打破了这一局面,正式开源了其自主研发的AI视频生成模型Open-Sora 2.0,引发了业界的广泛关注。

Open-Sora 2.0:小参数,大能量

Open-Sora 2.0最引人注目的特点在于其“小而精”的设计。据潞晨科技介绍,该模型仅用20万美元的成本(相当于224张GPU的算力)便成功训练出110亿参数的商业级模型。与动辄数百亿甚至上千亿参数的闭源模型相比,Open-Sora 2.0在训练成本上实现了显著降低。

然而,参数规模的精简并未以牺牲性能为代价。在权威的视频生成评测榜单VBench以及用户偏好测试中,Open-Sora 2.0的表现令人惊艳。其性能不仅媲美腾讯的HunyuanVideo和30B参数的Step-Video等主流闭源模型,甚至在某些指标上有所超越。

“我们希望通过开源Open-Sora 2.0,降低AI视频生成的门槛,让更多的研究者和开发者能够参与到这个领域中来,共同推动技术的发展。”潞晨科技的负责人表示。

技术解析:Open-Sora 2.0的性能密码

Open-Sora 2.0之所以能够在低成本下实现高性能,得益于其独特的技术架构和训练方法。

  • 模型架构: Open-Sora 2.0基于3D自编码器、3D全注意力机制和MMDiT架构,能够高效处理视频数据,捕捉时间维度上的动态信息,并提升视频生成的时空一致性。
  • 高压缩比自编码器: 采用4×32×32的高压缩比自编码器,显著降低了推理成本,使得模型在资源有限的设备上也能流畅运行。
  • 高效训练方法: 采用多阶段、多层次的数据筛选机制,确保高质量数据输入;优先在低分辨率下训练,学习关键动态特征,逐步提升分辨率,大幅降低计算开销;优先训练图生视频任务,用图像特征引导视频生成,加速模型收敛。
  • 并行训练与优化: 结合ColossalAI和系统级优化,提升计算资源利用率。关键技术优化包括序列并行、ZeroDP、细粒度Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等,确保训练效率最大化。
  • 模型初始化与蒸馏: 借助开源图生视频模型FLUX进行初始化,降低训练成本;基于蒸馏的优化策略提升自编码器特征空间的表达能力,减少训练所需数据量和时间。

Open-Sora 2.0的应用前景

Open-Sora 2.0的开源,为AI视频生成领域带来了广阔的应用前景。

  • 创意视频制作: 支持文本到视频(T2V)和图像到视频(I2V)生成,满足用户在创意视频制作和内容生成方面的需求。
  • 游戏开发: 可以用于生成游戏场景、角色动画等,降低游戏开发成本,提升游戏品质。
  • 影视制作: 可以用于生成特效、动画等,辅助影视制作,提高效率。
  • 教育培训: 可以用于生成教学视频、演示动画等,提升教学效果。

挑战与展望

尽管Open-Sora 2.0在性能上取得了显著突破,但与OpenAI的Sora等领先模型相比,仍然存在一定的差距。例如,在生成视频的复杂度和细节方面,仍有提升空间。

然而,Open-Sora 2.0的开源,无疑为AI视频生成领域注入了新的活力。随着更多研究者和开发者的参与,相信Open-Sora 2.0将不断完善,为AI视频生成技术的发展做出更大的贡献。

项目地址:

结语:

Open-Sora 2.0的开源,不仅是潞晨科技的一次技术突破,也是中国在人工智能领域的一次重要进展。它证明了即使在资源有限的情况下,仍然可以通过技术创新,挑战行业领先者。我们期待Open-Sora 2.0能够为AI视频生成领域带来更多的惊喜,推动技术的普及和应用。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注