OmniSync重磅发布：人大携手快手、清华推出通用对口型AI框架

引言

在数字化内容创作和传播的今天，视频已成为人们获取信息和娱乐的主要方式之一。然而，如何在视频中实现精确的口型同步，一直是技术上的一大挑战。近日，中国中国人民大学、快手科技和清华大学联合推出了一款名为OmniSync的通用对口型框架，为这一难题提供了全新的解决方案。这一创新技术不仅在影视配音、虚拟现实等领域具有广泛应用前景，也为AI内容生成和视频会议等新兴领域带来了新的可能性。

OmniSync是什么？

背景与目标

OmniSync是中国人民大学、快手科技和清华大学联合开发的一个基于扩散变换器（Diffusion Transformers）的通用对口型框架。其主要目标是实现视频中人物口型与语音的精准同步。通过这一技术，用户可以在无需参考帧或显式掩码的情况下，直接编辑视频帧，实现无限时长的推理，同时保持自然的面部动态和身份一致性。

项目意义

在当前的视频制作和AI内容生成领域，口型同步问题一直是一个技术瓶颈。无论是影视剧的后期配音，还是虚拟现实中的角色互动，精确的口型同步都是提升用户体验的关键因素。OmniSync的出现，填补了这一技术空白，为相关行业提供了强有力的工具支持。

OmniSync的主要功能

无掩码训练

OmniSync采用无掩码训练范式，可以直接编辑视频帧，而无需参考帧或掩码。这一功能使得用户可以在不破坏视频原有内容的情况下，实现口型的精确修改，支持无限时长的推理。

身份保持

在修改口型的同时，OmniSync能够确保头部姿态和身份的一致性。这意味着即使在进行大量的口型编辑后，视频中的人物仍然能够保持其原有的面部特征和身份特征，不会出现身份漂移的问题。

增强音频条件

为了解决音频信号弱的问题，OmniSync引入了动态时空分类器自由引导（DS-CFG）机制。这一机制可以提供对音频影响的精细控制，确保口型与语音的精确同步。

通用兼容性

OmniSync不仅适用于真人视频，还可以应用于风格化角色、非人类实体和AI生成内容。其通用兼容性使得这一技术在多个领域都具有广泛的应用前景。

无限时长推理

OmniSync支持无限时长推理，能够在长时间的视频中保持自然的面部动态和时间一致性。这一功能对于制作长篇影视剧和虚拟现实内容尤为重要。

遮挡鲁棒性

在面部遮挡等复杂条件下，OmniSync仍然能够保持高质量的口型同步。这一特性使得其在实际应用中具有更高的稳定性和可靠性。

OmniSync的技术原理

无掩码训练范式

OmniSync基于扩散变换器进行直接跨帧编辑，无需显式掩码或参考帧。通过迭代去噪学习映射函数，并引入时间步依赖采样策略，OmniSync可以在不同去噪阶段使用不同的数据集，确保稳定学习。

渐进噪声初始化

基于流匹配（Flow Matching）的方法，OmniSync将控制噪声注入到原始帧中，并仅在最后执行去噪步骤。这一方法不仅保持了空间一致性，还支持精确的嘴部区域修改，有效解决了姿态不一致和身份漂移的问题。

动态时空分类器自由引导（DS-CFG）

DS-CFG机制提供了对音频影响的精细控制，基于时空自适应引导，平衡音频条件强度。空间自适应引导使用高斯加权空间引导矩阵，集中引导强度在嘴部区域；时间自适应引导则随着去噪过程的推进，逐渐降低引导强度，确保在早期和中期扩散阶段提供强引导，在后期细化细节时减少干扰。

OmniSync的应用场景

影视配音

在影视剧的后期制作中，OmniSync可以实现角色口型与配音的精准匹配，提升观众的观影体验。

虚拟现实

OmniSync为虚拟现实中的角色提供了逼真的口型同步，增强了用户的沉浸感，使得虚拟互动更加真实。

AI内容生成

在AI生成视频中，OmniSync可以显著提升口型同步的自然度，使得生成的内容更加逼真，提高了用户的接受度和满意度。

视频会议

在远程通信中

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

OmniSync重磅发布：人大携手快手、清华推出通用对口型AI框架

作者智能小编

引言

OmniSync是什么？

背景与目标

项目意义

OmniSync的主要功能

无掩码训练

身份保持

增强音频条件

通用兼容性

无限时长推理

遮挡鲁棒性

OmniSync的技术原理

无掩码训练范式

渐进噪声初始化

动态时空分类器自由引导（DS-CFG）

OmniSync的应用场景

影视配音

虚拟现实

AI内容生成

视频会议

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

引言

OmniSync是什么？

背景与目标

项目意义

OmniSync的主要功能

无掩码训练

身份保持

增强音频条件

通用兼容性

无限时长推理

遮挡鲁棒性

OmniSync的技术原理

无掩码训练范式

渐进噪声初始化

动态时空分类器自由引导（DS-CFG）

OmniSync的应用场景

影视配音

虚拟现实

AI内容生成

视频会议

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复