“`markdown

AI“视觉图灵”时代来临?字节跳动OmniHuman技术引爆数字人领域

北京 – 人工智能领域再次迎来突破性进展。近日,字节跳动数字人团队推出了一项名为OmniHuman的创新技术,该技术仅需一张人物图片和一段音频,即可生成栩栩如生的数字人视频,引发业界广泛关注,或将开启AI“视觉图灵”时代。

这项技术是对半年前在X平台(原Twitter)上引起热议的肖像音频驱动技术Loopy的重大升级。OmniHuman能够处理不同尺寸和人物比例的单张图片,并结合输入的音频,生成自然流畅的人物视频,在演讲、唱歌、乐器演奏甚至移动等场景中,都能实现高度逼真的效果。

技术细节:Omni-Conditions Training 策略与DiT架构

据了解,OmniHuman的核心在于其采用的Omni-Conditions Training混合多模态训练策略,以及基于扩散Transformer(DiT)架构的视频生成模型。

传统的视频生成模型依赖于海量视频-文本数据进行训练,虽然能够输出逼真的通用视频内容,但在人像动画领域,往往面临数据稀缺和场景限制等问题。OmniHuman通过将多种模态(如文本、图像、音频和姿态)的数据混合训练,大幅度增加了可训练数据,使得模型能够从大规模数据中受益,并对各种输入形式提供更好的支持。

Omni-Conditions Training策略遵循两个关键原则:

  1. 弱条件任务扩展训练数据规模: 较强条件的任务(如口型同步、姿态可见性)排除的数据,可以用于文本和图像条件任务,从而扩大训练数据规模。
  2. 强条件训练比例降低: 较强的运动相关条件(如姿态)由于歧义较少,训练效果通常优于较弱的条件(如音频),因此需要确保较弱条件的训练比例高于较强条件。

在模型架构方面,OmniHuman采用基于DiT架构的视频生成框架,兼容多种模态的条件注入方式。驱动条件(音频、姿态、文本)和外观条件(图像)被区分处理,并通过cross attention、Heatmap特征编码等方式实现条件注入。

突破与挑战:手势崩坏与泛化能力

值得一提的是,OmniHuman在人物视频生成中常见的手势崩坏问题上,相比现有方法有显著的改善。此外,该模型对非真人图片(如动漫、3D卡通)的支持也表现出色,能够保持特定风格原有的运动模式。

然而,这项技术也面临着一些挑战。例如,如何进一步提升生成视频的自然度和真实感,如何处理更复杂的场景和人物动作,以及如何避免潜在的伦理问题(如深度伪造)等。

应用前景:落地即梦AI,或将改变内容创作模式

据悉,OmniHuman技术方案已落地即梦AI,相关功能将于近期开启测试。这预示着该技术在数字人、虚拟偶像、内容创作等领域具有广阔的应用前景。

想象一下,未来只需要一张照片和一段文字或语音,就能轻松生成个性化的数字人视频,用于社交互动、教育培训、娱乐表演等多种场景。这将极大地降低内容创作的门槛,并催生出全新的内容创作模式。

专家观点:人工智能的又一次飞跃

“OmniHuman的出现,是人工智能领域的一次重要飞跃,”一位不愿透露姓名的AI专家表示,“它不仅展示了AI在视频生成方面的强大能力,也为我们打开了通往‘视觉图灵’时代的大门。未来,AI或许能够像人类一样理解和创造视觉内容,这将对我们的生活和社会产生深远的影响。”

参考文献

(完)
“`


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注