阿里通义放大招：超逼真数字人视频生成！

北京，[当前日期] – 阿里巴巴通义实验室近日发布了一款名为OmniTalker的全新数字人视频生成大模型，该模型能够仅通过一段参考视频，学习视频中人物的表情、声音和说话风格，从而生成高度逼真的数字人视频。这一突破性的技术，不仅有效降低了数字人制作成本，还显著提升了生成内容的真实感和互动体验，为虚拟主播、虚拟助手等应用场景带来了新的可能性。

相较于传统的数字人生产流程，OmniTalker无需复杂的级联流水线，避免了传统方法中存在的音画输出不同步、语音与视觉表情风格不一致等问题。该模型采用端到端的统一框架，能够根据文本和参考视频，实时生成同步的语音和数字人视频，同时保留声音和面部风格。

技术原理：双分支DiT架构与视听融合

OmniTalker的核心在于其独特的双分支DiT（Diffusion Transformer）架构。音频分支负责从文本合成梅尔频谱图，而视觉分支则预测精细的头部姿态和面部动态。为了实现模态间的信息桥接，研究团队引入了一种新颖的视听融合模块，整合跨模态信息，确保音频和视觉输出在时间上的同步性和风格上的一致性。此外，上下文参考学习模块能够从单个参考视频中有效捕捉语音和面部风格特征，无需额外引入风格提取模块。

免费体验：人人皆可创造专属数字人

目前，OmniTalker项目已在魔搭社区和HuggingFace开放体验入口，并提供了十多个模板供用户免费使用。用户只需上传一段参考视频和一段文本，即可生成一段高度逼真的数字人视频。

[插入视频示例，例如小李子莱昂纳多和 LeCun 的AI复刻视频]

专家解读：解决行业痛点，提升用户体验

阿里通义实验室HumanAIGC团队表示，OmniTalker的推出旨在解决现有文本驱动数字人生成研究的局限性。传统的级联流水线方式存在系统复杂性、延迟开销以及音画输出不同步等问题，严重影响了用户体验。OmniTalker通过端到端的统一框架，实现了音视频联合生成，确保了音频和视频输出之间的对应关系，同时从参考视频中复制声音和面部风格。

未来展望：数字人技术的广泛应用

OmniTalker的发布，标志着AI数字人生成技术进入了一个新的阶段。随着技术的不断发展，数字人将在更多领域发挥重要作用，例如：