news studionews studio

香港,[日期] – 香港大学与快手科技近日联合发布了一项创新性的AI框架——GameFactory,旨在解决游戏视频生成领域长期存在的场景泛化难题。这一突破性的技术,基于预训练的视频扩散模型,结合开放域视频数据和高质量游戏数据集,为游戏开发、内容创新乃至自动驾驶、具身智能等领域带来了全新的可能性。

GameFactory:打破游戏视频生成的壁垒

传统的游戏视频生成方法往往受限于特定的游戏风格和预设场景,难以满足日益增长的个性化和多样化需求。GameFactory的出现,打破了这一壁垒。它不仅能够生成多样化的游戏场景,还能实现对角色和物体动作的精确控制,极大地提升了生成视频的真实感和交互性。

“GameFactory的核心在于其强大的场景泛化能力和动作可控性,”香港大学计算机科学教授、该项目负责人[此处可假设一个名字]博士表示,“我们希望通过这项技术,为游戏开发者和内容创作者提供更灵活、更高效的工具,激发更多的创新灵感。”

技术原理:多阶段训练策略与高质量数据集

GameFactory的技术核心在于其独特的多阶段训练策略和高质量的数据集支持。

  • 预训练视频扩散模型: 基于在开放域视频数据上预训练的视频扩散模型,能够生成多样化的游戏场景,突破了传统方法对特定游戏风格和场景的限制。
  • 三阶段训练策略:
    • 第一阶段: 使用LoRA(Low-Rank Adaptation)对预训练模型进行微调,使其适应目标游戏领域,同时保留大部分原始参数,确保模型在开放域的泛化能力得以保留。
    • 第二阶段: 冻结预训练参数和LoRA,专注于训练动作控制模块,避免风格与控制信号之间的纠缠,确保生成的视频能根据用户输入进行准确的动作控制。
    • 第三阶段: 移除LoRA权重,保留动作控制模块参数,使系统能在各种开放域场景中生成受控的游戏视频,不局限于特定的游戏风格。
  • 动作控制模块: 引入了动作控制模块,支持自回归动作控制,能生成无限长度的交互式游戏视频。
  • GF-Minecraft数据集: 为了支持动作可控的视频生成,研究团队发布了高质量的动作标注视频数据集GF-Minecraft。该数据集包含70小时的《我的世界》游戏视频,具有多样化的场景和详细的动作标注。数据集的设计满足了以下三个关键需求:可定制的动作、无偏的动作序列和多样化的场景。

应用前景:从游戏到自动驾驶,潜力无限

GameFactory的应用前景十分广阔。除了游戏开发和内容创新之外,它还可以在以下领域发挥重要作用:

  • 自动驾驶: 其动作控制模块和场景生成能力可以用于模拟自动驾驶环境,生成多样化的驾驶场景,加速自动驾驶技术的研发和测试。
  • 具身智能(Embodied AI): 通过生成多样化的交互场景,为具身智能的研究提供支持,推动机器人技术的发展。

挑战与展望

尽管GameFactory取得了显著的进展,但仍面临一些挑战,例如如何进一步提高生成视频的真实度和细节,以及如何更好地控制生成过程中的随机性。

“我们正在积极探索新的技术和方法,以克服这些挑战,”快手AI Lab的研究员[此处可假设一个名字]表示,“我们相信,随着技术的不断发展,GameFactory将在游戏视频生成领域发挥越来越重要的作用,并为其他相关领域带来更多的创新。”

参考文献

关于香港大学:

[此处可添加香港大学的简短介绍]

关于快手科技:

[此处可添加快手科技的简短介绍]

联系方式:

[此处可添加联系方式]


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注