潞晨科技发布Open-Sora 2.0，国产AI视频生成新突破！

摘要： 中国科技公司潞晨科技近日开源了其最新的AI视频生成模型Open-Sora 2.0。该模型以仅110亿参数的规模，在性能上媲美甚至超越了HunyuanVideo和30B参数的Step-Video等主流闭源模型，同时大幅降低了训练成本。Open-Sora 2.0的开源，为AI视频生成领域带来了新的活力，也为低成本、高性能的视频生成提供了新的可能性。

北京报道 – 在人工智能视频生成领域，OpenAI的Sora一直被视为行业标杆。然而，高昂的训练成本和闭源的特性，也让许多研究者和开发者望而却步。近日，中国科技公司潞晨科技（HPC-AI Tech）打破了这一局面，正式开源了其自主研发的AI视频生成模型Open-Sora 2.0，引发了业界的广泛关注。

Open-Sora 2.0：小参数，大能量

Open-Sora 2.0最引人注目的特点在于其“小而精”的设计。据潞晨科技介绍，该模型仅用20万美元的成本（相当于224张GPU的算力）便成功训练出110亿参数的商业级模型。与动辄数百亿甚至上千亿参数的闭源模型相比，Open-Sora 2.0在训练成本上实现了显著降低。

然而，参数规模的精简并未以牺牲性能为代价。在权威的视频生成评测榜单VBench以及用户偏好测试中，Open-Sora 2.0的表现令人惊艳。其性能不仅媲美腾讯的HunyuanVideo和30B参数的Step-Video等主流闭源模型，甚至在某些指标上有所超越。

“我们希望通过开源Open-Sora 2.0，降低AI视频生成的门槛，让更多的研究者和开发者能够参与到这个领域中来，共同推动技术的发展。”潞晨科技的负责人表示。

技术解析：Open-Sora 2.0的性能密码

Open-Sora 2.0之所以能够在低成本下实现高性能，得益于其独特的技术架构和训练方法。

模型架构： Open-Sora 2.0基于3D自编码器、3D全注意力机制和MMDiT架构，能够高效处理视频数据，捕捉时间维度上的动态信息，并提升视频生成的时空一致性。
高压缩比自编码器： 采用4×32×32的高压缩比自编码器，显著降低了推理成本，使得模型在资源有限的设备上也能流畅运行。
高效训练方法： 采用多阶段、多层次的数据筛选机制，确保高质量数据输入；优先在低分辨率下训练，学习关键动态特征，逐步提升分辨率，大幅降低计算开销；优先训练图生视频任务，用图像特征引导视频生成，加速模型收敛。
并行训练与优化： 结合ColossalAI和系统级优化，提升计算资源利用率。关键技术优化包括序列并行、ZeroDP、细粒度Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等，确保训练效率最大化。
模型初始化与蒸馏： 借助开源图生视频模型FLUX进行初始化，降低训练成本；基于蒸馏的优化策略提升自编码器特征空间的表达能力，减少训练所需数据量和时间。

Open-Sora 2.0的应用前景

Open-Sora 2.0的开源，为AI视频生成领域带来了广阔的应用前景。