香港,中国香港 – 人工智能(AI)视频生成领域迎来一位新的重量级选手:Goku。这款由香港大学与字节跳动联合研发的视频生成模型,凭借其高质量的视频生成能力和极低的制作成本,有望彻底改变广告制作、内容创作等多个行业。

Goku的核心优势在于其能够以极低的成本(据称比传统方法低100倍)生成高质量的视频。这得益于其先进的rectified flow Transformer框架,该框架支持文生视频、图生视频以及文生图等多种模式,为用户提供了极大的灵活性。

技术解析:Goku背后的秘密

Goku的技术核心包括:

  • 图像-视频联合VAE: 通过3D联合图像-视频变分自编码器(VAE),Goku能够将图像和视频压缩到共享的潜在空间,从而在统一框架内处理多种媒体格式。
  • Transformer架构: Goku模型家族包含2B和8B参数的Transformer架构,利用全注意力机制有效处理图像和视频的复杂时空依赖关系,实现高质量、连贯的输出。
  • 校正流公式: 基于Rectified Flow(RF)算法,Goku通过线性插值在先验分布和目标数据分布之间进行训练,相比传统的扩散模型,展现出更快的收敛速度和更强的理论性质。
  • 多阶段训练策略: Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调,逐步提升模型的生成能力。

为了支撑Goku的训练,研究人员构建了一个包含约3600万视频和1.6亿图像的大规模数据集,并采用了多种数据过滤和增强技术来提高数据质量。此外,Goku的训练基础设施还包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术,显著提升了训练效率和稳定性。

Goku+:广告视频制作的利器

Goku的扩展版本Goku+,专注于广告视频创作,能够快速生成高质量的广告视频,支持20秒以上的视频生成,并具备稳定的手部动作和丰富的面部及身体表情。Goku+可以将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,增强广告吸引力。

Goku+的应用场景广泛,包括电商、品牌宣传、短视频广告和产品展示等。它能够显著降低广告制作成本,提升创作效率,为广告行业带来革命性的变革。

应用前景:Goku的无限可能

除了广告视频制作,Goku的应用前景还包括:

  • 虚拟数字人视频生成: Goku+可以生成虚拟数字人的视频,具有高度的逼真感和自然的动作,适用于虚拟主播、虚拟客服等场景。
  • 内容创作: Goku能够生成包括动画、自然风光、动物行为等多种场景的视频,为艺术创作者提供了丰富的灵感和创作素材。
  • 教育与培训: Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。
  • 娱乐产业: 在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成,为创作者提供更多可能性。

挑战与展望

尽管Goku展现出强大的潜力,但仍面临一些挑战。例如,如何进一步提高视频生成的质量和真实感,如何解决生成视频中的伦理问题,以及如何确保模型的公平性和透明度等。

尽管如此,Goku的出现无疑为视频生成领域注入了新的活力。随着技术的不断发展,我们有理由相信,Goku将在未来发挥更大的作用,为我们的生活带来更多便利和惊喜。

项目地址:

关键词: Goku,视频生成,香港大学,字节跳动,人工智能,AI,广告视频,虚拟数字人,内容创作

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注