耶鲁联手字节，多模态扩散模型D-DiT问世

人工智能领域再添新星！ 耶鲁大学联合字节跳动Seed实验室等机构，近日推出了一款名为D-DiT (Dual Diffusion Transformer) 的多模态扩散模型，该模型旨在统一图像生成和理解任务，为视觉语言模型的发展带来新的可能性。

D-DiT是什么？

D-DiT 并非横空出世，而是站在巨人肩膀上的创新。它巧妙地结合了连续图像扩散（流匹配）和离散文本扩散（掩码扩散）两种技术，并基于双向注意力机制，实现了图像和文本模态的同步训练。这意味着，D-DiT不仅能够根据文本描述生成高质量的图像，还能根据图像生成描述性文本，甚至能够回答基于图像内容的提问。

技术原理：双分支扩散与双向注意力

D-DiT 的核心在于其双分支扩散模型和多模态Transformer架构。

双分支扩散模型： 将连续图像扩散（Continuous Image Diffusion）和离散文本扩散（Discrete Text Diffusion）相结合。图像分支采用流匹配（Flow Matching）技术，通过逆向扩散过程生成图像；文本分支则采用掩码扩散（Masked Diffusion）技术，逐步去噪生成文本。
多模态Transformer架构： 包含图像和文本两个分支，分别处理图像和文本数据，并输出各自的扩散目标。模型通过联合训练目标，同时优化图像和文本模态，学习图像和文本之间的联合分布。
双向注意力机制： 允许模型在图像和文本之间灵活切换，支持无序处理输入模态，从而在生成过程中充分利用图像和文本的信息，提升多模态任务的性能。

D-DiT 的主要功能和应用场景：

D-DiT 具备强大的双向生成能力和多模态理解能力，应用场景广泛：