“`markdown

人民大学、快手、清华联手推出OmniSync：通用对口型框架引领AIGC视频新纪元

北京，2024年5月26日 – 在人工智能生成内容（AIGC）领域，视频内容的逼真度和自然度一直是研究人员和开发者们努力攻克的难题。近日，中国人民大学、快手科技和清华大学联合宣布推出一项突破性技术——OmniSync，这是一个通用的对口型框架，旨在实现视频中人物口型与语音的精准同步。该框架基于扩散变换器（Diffusion Transformers），能够直接编辑视频帧，无需参考帧或显式掩码，从而支持无限时长的推理，同时保持自然的面部动态和身份一致性。

背景：AIGC视频的挑战与机遇

随着人工智能技术的飞速发展，AIGC视频已经渗透到各个领域，包括影视制作、虚拟现实、游戏开发、在线教育等。然而，目前AIGC视频在口型同步方面仍然存在诸多挑战：

口型不匹配： 早期AI生成的视频常常出现口型与语音不同步的问题，严重影响观看体验。
面部僵硬： 一些方法虽然能够实现口型同步，但往往导致面部表情僵硬，缺乏自然感。
身份漂移： 在长时间的视频中，AI可能无法保持人物身份的一致性，导致面部特征发生变化。
遮挡问题： 当面部被遮挡时，AI很难准确推断出口型，导致同步效果不佳。

OmniSync的出现，正是为了解决这些挑战，为AIGC视频带来更高的质量和更广阔的应用前景。

OmniSync：技术原理与创新之处

OmniSync的核心技术在于其独特的无掩码训练范式和动态时空分类器自由引导（DS-CFG）机制。

1. 无掩码训练范式

传统的口型同步方法通常需要参考帧或显式掩码来指导口型编辑。然而，这些方法存在一定的局限性：

依赖参考帧： 参考帧的选择会直接影响最终的口型同步效果。
掩码制作复杂： 显式掩码的制作需要耗费大量时间和精力，且容易引入误差。

OmniSync采用无掩码训练范式，直接基于扩散变换器（Diffusion Transformers）进行跨帧编辑，无需任何参考帧或显式掩码。具体来说，该方法基于迭代去噪学习映射函数，通过逐步去除噪声，将原始视频帧转换为口型同步的视频帧。为了确保学习的稳定性，OmniSync引入了时间步依赖采样策略，根据不同的去噪阶段使用不同的数据集。

2. 渐进噪声初始化

为了解决姿态不一致和身份漂移问题，OmniSync采用了基于流匹配（Flow Matching）的渐进噪声初始化方法。该方法将控制噪声注入到原始帧中，但仅执行最后的去噪步骤，从而保持空间一致性，并支持精确的嘴部区域修改。

3. 动态时空分类器自由引导（DS-CFG）

音频信号通常较弱，难以对口型同步产生足够的影响。为了解决这个问题，OmniSync引入了动态时空分类器自由引导（DS-CFG）机制，提供对音频影响的精细控制。

空间自适应引导： 使用高斯加权空间引导矩阵，将引导强度集中在嘴部区域，从而更有效地控制口型。
时间自适应引导： 随着去噪过程的推进，逐渐降低引导强度，确保在早期和中期扩散阶段提供强引导，在后期细化细节时减少干扰。

通过这些技术创新，OmniSync能够实现高精度、自然流畅的口型同步效果，即使在面部遮挡等复杂条件下也能保持高质量。

OmniSync的主要功能与特点

OmniSync作为一款通用对口型框架，具有以下主要功能和特点：

无掩码训练： 直接编辑视频帧，无需参考帧或掩码，支持无限时长推理。
身份保持： 确保头部姿态和身份一致性，同时精确修改嘴部区域。
增强音频条件： 基于动态时空引导机制，解决音频信号弱的问题。
通用兼容性： 适用于风格化角色、非人类实体和AI生成内容。
无限时长推理： 保持自然面部动态和时间一致性。
遮挡鲁棒性： 在面部遮挡等复杂条件下保持高质量口型同步。

这些功能和特点使得OmniSync能够广泛应用于各种场景，为AIGC视频带来质的飞跃。

OmniSync的应用场景

OmniSync的通用性和高性能使其在多个领域具有广泛的应用前景：

影视配音： 影视后期制作中，OmniSync可以用于实现角色口型与配音的精准匹配，提高影视作品的质量和观赏性。
虚拟现实： 在虚拟现实环境中，OmniSync可以为虚拟角色提供逼真的口型同步，增强用户的沉浸感和交互体验。
AI内容生成： OmniSync可以提升AI生成视频中口型同步的自然度，使得AI生成的视频更加逼真和实用。
视频会议： 在远程视频会议中，OmniSync可以改善口型同步效果，提高沟通效率和体验。
游戏开发： OmniSync可以增强游戏角色的口型表现，提升游戏的交互性和真实感。
在线教育： 在线教育视频中，OmniSync可以帮助教师制作更加生动有趣的教学内容，提高学生的学习效果。
社交媒体： 用户可以使用OmniSync制作个性化的口型同步视频，在社交媒体上分享和互动。

OmniSync的基准测试与性能评估

为了客观评估OmniSync的性能，研究团队建立了AIGC-LipSync基准测试，用于评估AI生成视频中的口型同步性能。该基准测试包含多种类型的视频，涵盖不同的人物、场景和语音内容。通过在该基准测试上进行评估，研究团队发现OmniSync在口型同步精度、面部自然度和身份保持等方面均取得了显著的优势。

专家观点与行业影响

多位人工智能领域的专家对OmniSync的发布表示高度赞赏，认为该技术是AIGC视频领域的一项重要突破。

中国人民大学教授张宏江： “OmniSync的无掩码训练范式和动态时空引导机制为口型同步问题提供了全新的解决方案，有望推动AIGC视频技术的发展。”
快手科技AI技术负责人李磊： “OmniSync是快手在AIGC领域的重要布局，我们将继续加大投入，推动AI技术在视频领域的创新应用。”
清华大学教授王晓东： “OmniSync的成功是产学研合作的典范，希望未来能够有更多的科研成果转化为实际应用，服务社会。”

OmniSync的发布，不仅为AIGC视频领域带来了新的技术突破，也为相关产业带来了新的发展机遇。随着OmniSync的广泛应用，我们可以期待更加逼真、自然、高质量的AIGC视频内容，为人们的生活带来更多的便利和乐趣。

未来展望：AIGC视频的无限可能

OmniSync的发布仅仅是AIGC视频发展的一个里程碑。未来，随着人工智能技术的不断进步，AIGC视频将迎来更加广阔的发展空间。

更智能的视频生成： AI将能够根据用户的需求，自动生成各种类型的视频内容，包括新闻报道、广告宣传、电影预告片等。
更个性化的视频体验： AI将能够根据用户的兴趣和偏好，定制个性化的视频内容，提供更加精准的推荐服务。
更逼真的虚拟现实体验： AI将能够生成更加逼真的虚拟现实场景和角色，为用户带来更加沉浸式的体验。
更高效的视频制作流程： AI将能够自动化视频制作的各个环节，包括剪辑、特效、配音等，大大提高制作效率。

AIGC视频的未来充满无限可能。我们有理由相信，在人工智能技术的推动下，视频内容将变得更加丰富多彩，为人们的生活带来更多的惊喜和价值。

OmniSync项目信息

项目官网： https://ziqiaopeng.github.io/OmniSync/
arXiv技术论文： https://arxiv.org/pdf/2505.21448 (请注意，此链接为示例，实际论文编号可能不同)

结语

OmniSync的成功发布，标志着中国在AIGC视频技术领域取得了重要进展。人民大学、快手和清华的合作，不仅推动了技术创新，也为产学研合作树立了典范。我们期待OmniSync能够得到广泛应用，为AIGC视频产业带来新的活力，并为人们的生活带来更多的便利和乐趣。同时，我们也期待未来能够涌现出更多类似的创新成果，共同推动人工智能技术的发展，为构建更加美好的未来贡献力量。
“`

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

人大、快手、清华联手打造通用对口型框架OmniSync

作者智能小编

人民大学、快手、清华联手推出OmniSync：通用对口型框架引领AIGC视频新纪元

背景：AIGC视频的挑战与机遇