昆仑万维开源SkyReels-A1：表情动作AI新突破

北京 – 近日，中国互联网公司昆仑万维宣布开源其自主研发的SkyReels-A1算法，这一举措标志着国内在表情动作可控视频生成技术领域取得了重要突破。SkyReels-A1作为中国首个SOTA（State-of-the-Art）级别的基于视频基座模型的表情动作可控算法，有望为虚拟形象、远程通信、数字内容创作等领域带来革命性变革。

SkyReels-A1：技术突破与功能亮点

SkyReels-A1的核心优势在于其对人物表情和动作的精准控制能力。该算法能够基于任意人体比例（如肖像、半身及全身）生成高度逼真的动态视频，并精准地将驱动视频中的表情和动作迁移到目标肖像上，同时保持身份一致性。

具体而言，SkyReels-A1具备以下主要功能：

高保真肖像动画生成： 从静态肖像生成动态视频，支持多种身体比例，精确迁移表情和动作，同时保持身份一致性。
表情和动作的精确控制： 支持复杂表情（如微妙的眉眼动作、嘴唇运动）和全身动作的自然迁移，提供高保真的表情捕捉和动作驱动能力。
身份保持与自然融合： 在动画生成过程中，确保生成的人物与原始肖像的身份高度一致，避免身份失真。

技术原理：多模块协同，精细化控制

SkyReels-A1的技术核心在于其多模块协同工作的机制，包括视频扩散模型、表情感知地标、时空对齐地标引导模块以及面部图像-文本对齐模块。

视频扩散模型： 基于逐步逆转噪声过程，将随机噪声转化为结构化的视频内容，利用Transformer的自注意力机制捕捉视频中的时空信息，生成连贯且自然的动态内容。
表情感知地标： 提取驱动视频中的表情地标（如面部关键点），作为动画生成的运动描述符，利用3D神经渲染模块精确捕捉细微的表情变化。
时空对齐地标引导模块： 使用3D因果编码器将地标信息映射到视频的潜在空间，确保驱动信号与生成视频的时空一致性，增强运动信号的捕捉能力。
面部图像-文本对齐模块： 将面部特征映射到文本特征空间，增强身份一致性，融合视觉和文本特征，提高生成结果的准确性和身份保留能力。

此外，SkyReels-A1还采用了分阶段训练策略，包括动作驱动训练、身份保持训练和多模块联合微调，以提升模型的泛化能力和生成质量。

应用前景：赋能多领域创新

SkyReels-A1的开源，无疑将加速其在各个领域的应用落地。以下是一些潜在的应用场景：