字节跳动发布MAGREF：多主体视频生成新突破

北京 – 在人工智能视频生成领域，字节跳动再次走在了前沿。该公司近日推出了名为MAGREF（Masked Guidance for Any‑Reference Video Generation）的多主体视频生成框架，该框架仅需一张参考图像和文本提示，即可生成高质量、主体一致的视频，为内容创作、广告制作等领域带来了新的可能性。

MAGREF的发布，标志着AI在视频生成领域又迈出了重要一步。相较于以往的视频生成技术，MAGREF最大的亮点在于其对多主体的处理能力。它不仅支持单人视频的生成，更能轻松应对多人互动以及人物与物体、背景的复杂场景，并且能保持视频中人物、物体和背景的协调性与一致性，有效避免了“多人同框串脸”等问题。

技术原理：区域感知动态掩码与像素级通道拼接

MAGREF能够实现如此强大的功能，得益于其独特的技术原理。该框架采用了区域感知动态掩码机制，在生成空间中构建一块空白画布，将输入的参考图（如人脸、物体、背景等）随机排列其中。为每张参考图生成一张空间区域掩码，指示图像在画布中的语义位置，从而引导模型理解“谁控制哪一块画面”。即使参考图数量和顺序不同，也能保持结构一致、身份不串、关系明确。

此外，MAGREF还采用了像素级通道拼接机制，将所有参考图在特征维度上逐像素对齐拼接，避免了传统 token 拼接可能引发的图像模糊或信息混叠问题。这一机制增强了视觉一致性，保持生成结果对姿态、服饰、背景等细节的精准还原。

为了确保训练过程中的身份一致性，MAGREF还采用了三阶段数据处理流程，包括筛选与字幕生成、主体提取与掩码标注、人脸识别与身份建模。

应用场景广泛，潜力无限

MAGREF的应用场景十分广泛，涵盖了内容创作与娱乐、教育领域、广告与营销、虚拟现实与增强现实、社交媒体与企业级应用等多个领域。