字节跳动发布Phantom，主体一致视频生成新突破

北京 – 字节跳动近日发布了一款名为Phantom的主体一致视频生成框架，标志着其在人工智能视频创作领域迈出了重要一步。这款框架旨在解决当前视频生成技术中普遍存在的主体一致性问题，为用户提供更具个性化和定制化的视频创作体验。

Phantom的核心在于其跨模态对齐技术，该技术结合了文本和图像提示，能够从参考图像中提取主体元素，并生成与文本描述相符的视频内容。这意味着用户可以通过简单的文本指令和一张参考图片，就能创造出包含特定人物、动物或物体的动态视频。

Phantom的技术创新主要体现在以下几个方面：

数据结构设计： 框架构建了文本-图像-视频三元组数据结构，用于训练模型理解不同模态之间的关系。这种数据结构分为In-paired（图像与视频主体一致）和Cross-paired（跨视频匹配）两种类型，旨在避免模型简单复制输入图像，从而提高生成视频的原创性和多样性。
模型架构： Phantom基于现有的文本到视频（T2V）和图像到视频（I2V）架构，重新设计了联合文本-图像注入模型。该模型分为输入头（Input Head）和可训练的DiT模块。输入头负责编码视频、文本和参考图像，DiT模块则负责跨模态对齐和视频生成。
跨模态对齐： 参考图像通过特定的视觉编码器（如VAE和CLIP）编码后，与视频特征和文本特征分别拼接，输入到DiT模块的视觉和文本分支。这种设计使得模型能够更好地理解图像和文本之间的关联，从而生成更符合用户意图的视频。
身份保留技术： 在处理人脸等身份特征时，Phantom采用面部识别模型（如ArcFace）评估生成视频与参考图像的相似度，确保主体身份的一致性。这项技术对于虚拟试穿、数字人生成等应用场景至关重要。

Phantom的应用场景十分广泛，涵盖了以下几个主要领域：

尽管Phantom在主体一致视频生成方面取得了显著进展，但仍然面临一些挑战。例如，如何进一步提高生成视频的真实感和自然度，如何处理更复杂的场景和动作，以及如何降低计算成本等。

不过，随着人工智能技术的不断发展，我们有理由相信，Phantom将在未来取得更大的突破，为视频创作领域带来更多的可能性。

项目地址：

参考文献：

（完）

>>> Read more <<<