“`markdown

AI“视觉图灵”时代来临？字节跳动OmniHuman技术引爆数字人领域

北京 – 人工智能领域再次迎来突破性进展。近日，字节跳动数字人团队推出了一项名为OmniHuman的创新技术，该技术仅需一张人物图片和一段音频，即可生成栩栩如生的数字人视频，引发业界广泛关注，或将开启AI“视觉图灵”时代。

这项技术是对半年前在X平台（原Twitter）上引起热议的肖像音频驱动技术Loopy的重大升级。OmniHuman能够处理不同尺寸和人物比例的单张图片，并结合输入的音频，生成自然流畅的人物视频，在演讲、唱歌、乐器演奏甚至移动等场景中，都能实现高度逼真的效果。

技术细节：Omni-Conditions Training 策略与DiT架构

据了解，OmniHuman的核心在于其采用的Omni-Conditions Training混合多模态训练策略，以及基于扩散Transformer（DiT）架构的视频生成模型。

传统的视频生成模型依赖于海量视频-文本数据进行训练，虽然能够输出逼真的通用视频内容，但在人像动画领域，往往面临数据稀缺和场景限制等问题。OmniHuman通过将多种模态（如文本、图像、音频和姿态）的数据混合训练，大幅度增加了可训练数据，使得模型能够从大规模数据中受益，并对各种输入形式提供更好的支持。

Omni-Conditions Training策略遵循两个关键原则：

弱条件任务扩展训练数据规模： 较强条件的任务（如口型同步、姿态可见性）排除的数据，可以用于文本和图像条件任务，从而扩大训练数据规模。
强条件训练比例降低： 较强的运动相关条件（如姿态）由于歧义较少，训练效果通常优于较弱的条件（如音频），因此需要确保较弱条件的训练比例高于较强条件。

在模型架构方面，OmniHuman采用基于DiT架构的视频生成框架，兼容多种模态的条件注入方式。驱动条件（音频、姿态、文本）和外观条件（图像）被区分处理，并通过cross attention、Heatmap特征编码等方式实现条件注入。

突破与挑战：手势崩坏与泛化能力

值得一提的是，OmniHuman在人物视频生成中常见的手势崩坏问题上，相比现有方法有显著的改善。此外，该模型对非真人图片（如动漫、3D卡通）的支持也表现出色，能够保持特定风格原有的运动模式。

然而，这项技术也面临着一些挑战。例如，如何进一步提升生成视频的自然度和真实感，如何处理更复杂的场景和人物动作，以及如何避免潜在的伦理问题（如深度伪造）等。

应用前景：落地即梦AI，或将改变内容创作模式

据悉，OmniHuman技术方案已落地即梦AI，相关功能将于近期开启测试。这预示着该技术在数字人、虚拟偶像、内容创作等领域具有广阔的应用前景。

想象一下，未来只需要一张照片和一段文字或语音，就能轻松生成个性化的数字人视频，用于社交互动、教育培训、娱乐表演等多种场景。这将极大地降低内容创作的门槛，并催生出全新的内容创作模式。

专家观点：人工智能的又一次飞跃

“OmniHuman的出现，是人工智能领域的一次重要飞跃，”一位不愿透露姓名的AI专家表示，“它不仅展示了AI在视频生成方面的强大能力，也为我们打开了通往‘视觉图灵’时代的大门。未来，AI或许能够像人类一样理解和创造视觉内容，这将对我们的生活和社会产生深远的影响。”

参考文献

OmniHuman项目主页: https://omnihuman-lab.github.io/
OmniHuman技术报告: https://arxiv.org/abs/2502.01061

（完）
“`

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

字节OmniHuman：AI“视觉图灵”时代降临？

作者智能小编

AI“视觉图灵”时代来临？字节跳动OmniHuman技术引爆数字人领域

技术细节：Omni-Conditions Training 策略与DiT架构

突破与挑战：手势崩坏与泛化能力

应用前景：落地即梦AI，或将改变内容创作模式

专家观点：人工智能的又一次飞跃

参考文献

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

AI“视觉图灵”时代来临？字节跳动OmniHuman技术引爆数字人领域

技术细节：Omni-Conditions Training 策略与DiT架构

突破与挑战：手势崩坏与泛化能力

应用前景：落地即梦AI，或将改变内容创作模式

专家观点：人工智能的又一次飞跃

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复