华科大联手VIVO，推出图像修复神器PixelHacker

摘要： 华中科技大学与VIVO AI Lab联合发布了名为PixelHacker的图像修复模型，该模型基于潜在类别引导（LCG）范式，在图像修复领域展现出卓越的性能。通过对前景和背景进行独立编码，并利用线性注意力机制，PixelHacker能够生成结构和语义一致的高质量修复图像，为老旧照片修复、无关对象移除等应用场景提供了新的解决方案。

北京 – 在人工智能图像处理领域，一项引人注目的研究成果近日由华中科技大学与VIVO AI Lab联合推出。这款名为PixelHacker的图像修复模型，旨在解决图像修复过程中结构和语义一致性的难题，为用户提供更加逼真和自然的修复效果。该模型的发布，标志着图像修复技术在学术研究和产业应用上都迈出了重要一步。

技术原理：潜在类别引导与扩散模型

PixelHacker的核心在于其创新的潜在类别引导（Latent Categories Guidance, LCG）范式。传统的图像修复方法往往难以区分图像中的前景和背景，导致修复后的图像在结构和语义上出现不一致。而PixelHacker通过将图像分为前景和背景两部分，并分别进行编码，有效解决了这一问题。

具体来说，LCG范式使用两个固定大小的嵌入（embeddings）来编码前景和背景的潜在特征，避免了对具体类别标签的依赖。在训练过程中，模型使用多种掩码（如随机笔刷掩码、对象语义掩码、场景语义掩码等）构造图像-掩码对，并将其分配到前景或背景嵌入中。

此外，PixelHacker还采用了扩散模型（Diffusion Model）作为其生成框架。扩散模型基于逐步去噪的过程生成图像内容，能够生成高质量且多样化的图像。在去噪过程中，模型基于线性注意力（Linear Attention）将前景和背景的潜在特征注入到模型中，确保生成内容在结构和语义上与周围环境保持一致。

训练与微调：海量数据支撑下的卓越性能

为了保证PixelHacker的修复效果，研究团队使用了包含1400万图像-掩码对的大规模数据集进行预训练。通过海量数据的训练，模型学习到了丰富的图像分布和语义信息。在此基础上，PixelHacker还在多个开源基准数据集（如Places2、CelebA-HQ 和 FFHQ）上进行微调，以适应特定任务和数据分布，进一步提升性能。

在推理阶段，PixelHacker还采用了分类器自由引导（Classifier-Free Guidance）技术，通过调整引导规模（guidance scale）来平衡生成内容的多样性和一致性。

应用场景：潜力无限的图像修复工具

PixelHacker的卓越性能使其在多个应用场景中具有广泛的应用前景：