上海报道 – 近日,由卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研究人员联合推出的名为GAS(Generative Avatar Synthesis from a Single Image)的AI框架,引发了业界广泛关注。该框架能够从单张图像生成高质量、视角一致且时间连贯的3D人体虚拟形象,为游戏、影视、体育、时尚等多个领域带来了新的可能性。

GAS的核心在于巧妙地结合了回归型3D人体重建模型和扩散模型的优势。简单来说,它首先利用3D人体重建模型从单张图像中提取出人体结构信息,生成中间视角或姿态,然后将这些信息作为条件输入到视频扩散模型中,从而生成高质量的、在不同视角下都保持一致的虚拟形象。

技术亮点:模式切换器与密集外观提示

为了进一步提升生成效果,GAS框架引入了“模式切换器”。这个模块能够智能地区分视角合成和姿态合成任务,让模型在生成视角时更专注于保持一致性,而在生成姿态时更注重生成真实感。

此外,GAS还采用了“密集外观提示”技术。基于3D重建模型生成的密集信息作为条件输入,确保生成结果在外观和结构上的高保真度。这意味着生成的虚拟形象不仅看起来像,而且在细节上也更加逼真。

GAS的技术原理可以概括为以下几个关键步骤:

  1. 3D人体重建与密集条件信号:利用回归型3D人体重建模型(如单视角通用人类NeRF)从输入图像生成中间的视角或姿态,并将输入图像映射到规范空间并重新定位,生成密集的外观提示。
  2. 视频扩散模型与统一框架:将生成的中间视角或姿态作为视频扩散模型的条件输入,通过扩散模型生成高质量的视角一致性和时间连贯性动画。GAS提出了统一框架,将视角合成和姿态合成任务合并,共享模型参数,实现从姿态合成到视角合成的自然泛化。
  3. 模式切换器:为了区分视角合成和姿态合成任务,GAS引入了模式切换器模块。模块支持网络在生成视角时专注于一致性,在生成姿态时专注于真实感变形。

应用前景广阔,赋能多行业

GAS技术的出现,为多个行业带来了新的发展机遇:

  • 游戏和虚拟现实(VR): GAS可以从单张图像生成高质量的虚拟形象,支持多视角和动态姿态的连贯合成,为玩家提供更加沉浸式的游戏体验。
  • 影视制作: 在影视特效和动画制作中,GAS能快速生成逼真的虚拟角色,减少传统建模和动画制作的时间和成本。
  • 体育和健身: 通过从单张图像生成动态虚拟形象,GAS可用于创建个性化的运动动画,帮助运动员分析动作或用于健身应用中。
  • 时尚和服装设计: GAS能生成不同姿态和视角的虚拟形象,帮助设计师快速预览服装效果,提升设计效率。

挑战与展望

尽管GAS技术取得了显著进展,但仍面临一些挑战。例如,对于复杂的光照条件、遮挡以及快速运动的场景,生成效果仍有提升空间。此外,如何进一步提高生成速度和降低计算成本,也是未来研究的重要方向。

不过,随着AI技术的不断发展,我们有理由相信,GAS及其类似技术将在未来得到更广泛的应用,为人们的生活带来更多便利和乐趣。

项目地址:

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注