单图生成3D人体框架：GAS技术突破！

上海报道 – 近日，由卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研究人员联合推出的名为GAS（Generative Avatar Synthesis from a Single Image）的AI框架，引发了业界广泛关注。该框架能够从单张图像生成高质量、视角一致且时间连贯的3D人体虚拟形象，为游戏、影视、体育、时尚等多个领域带来了新的可能性。

GAS的核心在于巧妙地结合了回归型3D人体重建模型和扩散模型的优势。简单来说，它首先利用3D人体重建模型从单张图像中提取出人体结构信息，生成中间视角或姿态，然后将这些信息作为条件输入到视频扩散模型中，从而生成高质量的、在不同视角下都保持一致的虚拟形象。

技术亮点：模式切换器与密集外观提示

为了进一步提升生成效果，GAS框架引入了“模式切换器”。这个模块能够智能地区分视角合成和姿态合成任务，让模型在生成视角时更专注于保持一致性，而在生成姿态时更注重生成真实感。

此外，GAS还采用了“密集外观提示”技术。基于3D重建模型生成的密集信息作为条件输入，确保生成结果在外观和结构上的高保真度。这意味着生成的虚拟形象不仅看起来像，而且在细节上也更加逼真。

GAS的技术原理可以概括为以下几个关键步骤：

3D人体重建与密集条件信号：利用回归型3D人体重建模型（如单视角通用人类NeRF）从输入图像生成中间的视角或姿态，并将输入图像映射到规范空间并重新定位，生成密集的外观提示。
视频扩散模型与统一框架：将生成的中间视角或姿态作为视频扩散模型的条件输入，通过扩散模型生成高质量的视角一致性和时间连贯性动画。GAS提出了统一框架，将视角合成和姿态合成任务合并，共享模型参数，实现从姿态合成到视角合成的自然泛化。
模式切换器：为了区分视角合成和姿态合成任务，GAS引入了模式切换器模块。模块支持网络在生成视角时专注于一致性，在生成姿态时专注于真实感变形。

应用前景广阔，赋能多行业

GAS技术的出现，为多个行业带来了新的发展机遇：

游戏和虚拟现实（VR）： GAS可以从单张图像生成高质量的虚拟形象，支持多视角和动态姿态的连贯合成，为玩家提供更加沉浸式的游戏体验。
影视制作： 在影视特效和动画制作中，GAS能快速生成逼真的虚拟角色，减少传统建模和动画制作的时间和成本。
体育和健身： 通过从单张图像生成动态虚拟形象，GAS可用于创建个性化的运动动画，帮助运动员分析动作或用于健身应用中。
时尚和服装设计： GAS能生成不同姿态和视角的虚拟形象，帮助设计师快速预览服装效果，提升设计效率。

挑战与展望

尽管GAS技术取得了显著进展，但仍面临一些挑战。例如，对于复杂的光照条件、遮挡以及快速运动的场景，生成效果仍有提升空间。此外，如何进一步提高生成速度和降低计算成本，也是未来研究的重要方向。

不过，随着AI技术的不断发展，我们有理由相信，GAS及其类似技术将在未来得到更广泛的应用，为人们的生活带来更多便利和乐趣。

项目地址：

项目官网：https://humansensinglab.github.io/GAS/
arXiv技术论文：https://arxiv.org/pdf/2502.06957

参考文献：

Humansensinglab.github.io. (n.d.). GAS: Generative Avatar Synthesis from a Single Image. Retrieved from https://humansensinglab.github.io/GAS/
arXiv.org. (n.d.). GAS: Generative Avatar Synthesis from a Single Image. Retrieved from https://arxiv.org/pdf/2502.06957

>>> Read more <<<