视觉模型SiT：自监督预训练，收敛提速47倍！

北京，2024年5月15日 – 近日，人工智能领域迎来一项重要突破。来自高德地图的研究团队提出了一种名为“统一自监督预训练”（USP, Unified Self-Supervised Pretraining）的创新方法，成功解决了视觉模型权重在不同下游任务之间迁移的难题，尤其是在扩散模型中的应用，使得SiT模型的收敛速度提升了惊人的46.6倍。

该研究成果已发表在预印本平台arXiv上，论文题目为《USP: Unified Self-Supervised Pretraining for Image Generation and Understanding》，并开源了相关代码。这一突破性的进展，无疑为图像生成和理解领域带来了新的可能性。

研究背景：图像理解与生成之间的桥梁

近年来，研究人员逐渐认识到扩散模型与表征学习之间存在着深刻的联系。扩散模型的中间表征可以被用于下游视觉任务，而视觉模型的表征也能够显著提升扩散模型的收敛速度和生成质量。然而，由于输入形式的不匹配以及变分自编码器（VAE）潜在空间的使用，将视觉模型的预训练权重直接迁移到扩散模型中一直面临着巨大的挑战。

传统的“预训练-微调”范式在图像识别任务中取得了巨大成功，但在图像生成领域的应用却相对有限。尽管有研究表明，生成模型可以学习到优越的视觉表征，但如何有效地利用这些表征来加速和提升生成模型的性能，仍然是一个亟待解决的问题。

USP：统一的解决方案

为了克服上述挑战，高德地图的研究者们提出了USP方法。该方法的核心思想是在VAE的潜在空间中进行潜在掩码建模（Masked Latent Modeling）预训练。具体而言，USP架构基于一个简单的自编码器，但与传统的自编码器不同，它在VAE的潜在空间中进行操作，而非像素空间。

其工作流程如下：

编码： 输入图像首先经过VAE编码到潜在空间。
分块与掩码： 通过PatchConv对潜在空间进行图片分块，并按照设定的比例随机掩码部分块。
编码器： 未掩码的块输入到ViT编码器。
解码器： 解码器负责重建掩码块，损失函数采用简单的MSE loss。

在预训练阶段，VAE参数被冻结，只训练ViT编码器。预训练完成后，ViT编码器的权重可以被用于初始化下游任务，包括图像分类、语义分割以及基于扩散模型的图像生成。

USP的优势与突破

USP方法巧妙地解决了输入不匹配和结构不匹配的问题，实现了视觉模型权重在不同任务之间的无缝迁移。其主要优势包括：

统一性： USP是一种统一的预训练框架，可以同时应用于图像理解和生成任务。
高效性： USP显著加速了DiT和SiT模型的收敛速度，比从头训练快11.7倍（DiT-XL）和46.6倍（SiT-XL）。
兼容性： USP与现有的ViT结构兼容，并且可以通过优化初始化策略来适配不同的下游任务。

实验结果与未来展望

实验结果表明，USP在图像理解任务上实现了具有竞争力的表现。更重要的是，在生成任务中，USP显著加速了DiT和SiT模型的收敛速度，证明了其在扩散模型中的巨大潜力。

该研究的负责人表示：“我们相信，USP方法为图像生成和理解领域提供了一种新的思路。未来，我们将继续探索USP在更多任务和模型上的应用，并致力于开发更加高效和通用的预训练框架。”

参考文献：

USP: Unified Self-Supervised Pretraining for Image Generation and Understanding: https://arxiv.org/pdf/2503.06132
USP 代码地址：https://github.com/cxxgtxy/USP

关于高德地图：

高德地图是中国领先的数字地图内容、导航和位置服务解决方案提供商。长期以来，高德地图致力于通过技术创新，为用户提供更加便捷、高效和智能的出行体验。

（完）

>>> Read more <<<