新加坡国立大学发布图像风格迁移新模型

新加坡—— 在人工智能图像处理领域，风格迁移技术一直备受关注，但如何在复杂场景下保持风格化图像的一致性，却是一个长期存在的挑战。近日，新加坡国立大学的研究团队推出了一款名为OmniConsistency的图像风格迁移模型，旨在解决这一难题。该模型通过大规模配对的风格化数据进行训练，并采用两阶段训练策略，将风格学习与一致性学习解耦，从而在多种风格下保持图像的语义、结构和细节一致性。

OmniConsistency是什么？

OmniConsistency是由新加坡国立大学推出的图像风格迁移模型，其核心目标是解决复杂场景下风格化图像的一致性问题。与以往的模型相比，OmniConsistency在保持风格一致性的同时，还能保留原始图像的语义和细节，避免风格退化和内容失真。

技术原理：两阶段训练与一致性LoRA

OmniConsistency的技术核心在于其两阶段训练策略。第一阶段，模型独立训练多个风格特定的LoRA（Low-Rank Adaptation）模块，每个模块专注于捕捉特定风格的独特细节。第二阶段，模型在配对数据上训练一致性模块，动态切换不同的风格LoRA模块，确保一致性模块专注于结构和语义的一致性，避免吸收特定风格的特征。

此外，OmniConsistency还引入了一致性LoRA模块，在条件分支中引入低秩适应（LoRA）模块，仅对条件分支进行调整，避免干扰主网络的风格化能力。同时，模型采用因果注意力机制，确保条件令牌在内部交互，主分支（噪声和文本令牌）保持干净的因果建模。

主要功能与优势

OmniConsistency模型具备以下主要功能和优势：

风格一致性： 在多种风格下保持图像的风格一致性，避免风格退化。
内容一致性： 在风格化过程中保留原始图像的语义和细节，确保内容的完整性。
风格无关性： 与任意风格的LoRA模块无缝集成，支持多种风格的风格化任务。
灵活性： 支持灵活的布局控制，无需依赖传统的几何约束（如边缘图、草图、姿态图）。
高性能： 在实验中展现出与GPT-4o相当的性能，且提供更高的灵活性和泛化能力。

应用场景广泛

OmniConsistency的应用场景十分广泛，包括：

艺术创作： 将各种艺术风格（如动漫、油画、素描等）应用于图像，帮助艺术家快速生成风格化的作品。
内容生成： 在内容创作中，快速生成符合特定风格的图像，提升内容的多样性和吸引力。
广告设计： 为广告和营销材料生成风格一致的图像，提升视觉效果和品牌一致性。
游戏开发： 快速生成游戏中的风格化角色和场景，提高开发效率。
虚拟现实（VR）和增强现实（AR）： 生成风格化的虚拟环境和元素，增强用户体验。

项目地址与体验

感兴趣的读者可以通过以下链接了解更多关于OmniConsistency的信息：

GitHub仓库： https://github.com/showlab/OmniConsistency
HuggingFace模型库： https://huggingface.co/showlab/OmniConsistency
arXiv技术论文： https://arxiv.org/pdf/2505.18445
在线体验Demo： https://huggingface.co/spaces/yiren98/OmniConsistency

未来展望

OmniConsistency的推出，为图像风格迁移领域带来了新的突破。随着技术的不断发展，我们有理由相信，OmniConsistency将在艺术创作、内容生成、广告设计等领域发挥更大的作用，为人们带来更加丰富多彩的视觉体验。

参考文献

Showlab. (2024). OmniConsistency: Consistent Generation for Image Stylization. arXiv preprint arXiv:2505.18445.
GitHub Repository: https://github.com/showlab/OmniConsistency
Hugging Face Model Hub: https://huggingface.co/showlab/OmniConsistency

注：本文所有信息均来源于公开资料，力求准确客观。如有疏漏或错误，欢迎指正。

>>> Read more <<<