香港,中国香港 – 香港大学与字节跳动近日联合发布了一款名为Goku的全新视频生成模型,该模型基于先进的rectified flow Transformer框架,旨在实现图像和视频的联合生成。Goku的发布,预示着AI在视频创作领域取得了又一重大突破,尤其是在广告视频制作方面,其潜力不可估量。

Goku:不仅仅是视频生成

Goku的核心优势在于其高质量的视频生成能力,以及大幅降低广告视频制作成本的潜力。据称,Goku可以将广告视频的制作成本降低至传统方法的百分之一。这一突破性的进展,得益于Goku背后的大规模高质量数据集和高效的训练设施。研究人员构建了一个包含约3600万视频和1.6亿图像的庞大数据集,并采用了多模态大语言模型生成语境一致的框架。

Goku支持多种模式,包括:

  • 文本到图像(Text-to-Image): 根据文本描述生成高质量图像,细节丰富且与文本描述高度一致。
  • 文本到视频(Text-to-Video): 根据文本描述生成连贯的视频,具有流畅的动作和高质量的画面。
  • 图像到视频(Image-to-Video): 以图像为基础生成视频,保持图像的视觉风格和语义一致性,适用于动画和视频内容创作。
  • 广告视频生成(Goku+): Goku的扩展版本Goku+专注于广告场景,能生成高质量的广告视频,支持人物与产品的自然互动,且生成的视频具有稳定的手部动作和丰富的面部表情。
  • 虚拟数字人视频生成: 生成虚拟数字人的视频,具有高度的逼真感和自然的动作,适用于虚拟主播、虚拟客服等场景。

技术解析:Goku背后的秘密

Goku的强大功能并非偶然,而是建立在多项关键技术之上:

  • 图像-视频联合VAE: Goku采用3D联合图像-视频变分自编码器(VAE),将图像和视频输入压缩到共享的潜在空间,从而实现对多种媒体格式的统一处理。
  • Transformer架构: Goku模型家族包含2B和8B参数的Transformer架构,基于全注意力机制,能有效处理图像和视频的复杂时空依赖关系。
  • 校正流公式: 基于Rectified Flow(RF)算法,Goku通过线性插值在先验分布和目标数据分布之间进行训练,相比传统的扩散模型,展现出更快的收敛速度和更强的理论性质。
  • 多阶段训练策略: Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调,逐步提升模型的生成能力。
  • 大规模高质量数据集: 约3600万视频和1.6亿图像的大规模数据集,为模型训练提供了丰富的素材。
  • 高效的训练基础设施: Goku的训练基础设施包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术,显著提升了训练效率和稳定性。

应用前景:Goku将如何改变世界

Goku的应用场景十分广泛,除了前文提到的广告视频制作,还包括:

  • 内容创作: Goku能生成包括动画、自然风光、动物行为等多种场景的视频,为艺术创作者提供了丰富的灵感和创作素材。
  • 教育与培训: Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。
  • 娱乐产业: 在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成,为创作者提供更多可能性。

挑战与展望

尽管Goku展现出了巨大的潜力,但其发展也面临着一些挑战。例如,如何确保生成内容的真实性和避免潜在的滥用风险,是需要认真考虑的问题。此外,如何进一步提升生成视频的质量和多样性,也是未来研究的重要方向。

不过,Goku的发布无疑是AI视频生成领域的一个重要里程碑。随着技术的不断进步和应用场景的不断拓展,Goku有望在未来深刻地改变我们的生活和工作方式。

项目地址:

关键词: Goku, 视频生成模型, 香港大学, 字节跳动, AI, 广告视频, 图像生成, 文本生成, 虚拟数字人

(完)


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注