北京 – 在人工智能技术日新月异的今天,图像编辑领域也迎来了新的突破。近日,由字节跳动联合新加坡国立大学、上海交通大学、北京邮电大学以及Tiamat团队共同研发的艺术化图像编辑框架——PhotoDoodle正式亮相。该框架旨在通过少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling),让普通用户也能轻松创作出充满艺术气息的图像作品。

PhotoDoodle是什么?

PhotoDoodle并非简单的滤镜或特效工具,而是一个基于深度学习的图像编辑框架。它利用两阶段训练策略,首先基于大规模数据预训练通用图像编辑模型OmniEditor,然后用少量艺术家策划的前后图像对进行微调,从而捕捉特定的编辑风格。更重要的是,PhotoDoodle引入了位置编码重用机制和无噪声条件范式,确保生成结果与背景的无缝融合和一致性,避免了传统图像编辑工具容易出现的“PS痕迹”。

核心技术与功能亮点

PhotoDoodle的核心优势在于其强大的艺术风格学习与复现能力。它能够从少量艺术家提供的样本中学习独特的编辑风格,并将其应用于新的图像编辑任务中。具体来说,PhotoDoodle具备以下主要功能:

  • 艺术风格学习与复现: 从少量艺术家提供的样本中学习独特的编辑风格,应用于新的图像编辑任务中。
  • 装饰性元素生成: 支持在照片上添加装饰性元素(如手绘线条、色彩块、装饰图案等),确保这些元素与背景无缝融合。
  • 保持背景一致性: 在编辑过程中,严格保留原始照片的背景内容,避免背景失真或风格被破坏。
  • 指令驱动的编辑: 基于自然语言指令控制图像编辑内容,实现精准的局部修改和风格化处理。
  • 高效风格定制: 借助低秩适应(LoRA)技术,仅需30-50对样本即可快速适配不同艺术家的风格,降低训练成本。

在技术原理上,PhotoDoodle采用了以下关键技术:

  • OmniEditor预训练: 用大规模图像编辑数据集对预训练的DiT模型进行微调,将其转化为通用图像编辑器(OmniEditor)。引入位置编码克隆机制(Positional Encoding Cloning)和无噪声条件范式(Noise-free Conditioning),确保编辑过程中的空间一致性和背景保留。基于多模态注意力机制(MMA)结合文本指令和图像条件,实现精准的图像编辑。
  • EditLoRA微调: 在预训练的OmniEditor基础上,用少量艺术家提供的前后图像对进行低秩适应(LoRA)微调。基于低秩分解矩阵适应性调整模型权重,捕捉特定艺术家的编辑风格,同时保留预训练模型的通用能力。
  • 位置编码克隆机制: 在源图像和目标图像之间共享相同的位置编码,确保生成结果的空间一致性,避免背景与装饰元素之间的错位。
  • 无噪声条件范式: 在生成过程中保留源图像的无噪声条件,防止背景内容在迭代去噪过程中被破坏,保持原始图像的细节和纹理。
  • 条件流匹配损失函数: 优化条件流匹配损失函数,指导模型学习从噪声到目标图像的生成路径,进一步提升编辑效果。

应用场景广泛,潜力无限

PhotoDoodle的应用场景非常广泛,涵盖了数字艺术创作、商业设计、社交媒体、艺术教育以及娱乐互动等多个领域:

  • 数字艺术创作: 为照片添加艺术风格,快速生成创意作品。
  • 商业设计: 快速生成符合品牌风格的设计图像,提升设计效率。
  • 社交媒体: 为个人照片添加装饰效果,增强分享内容的吸引力。
  • 艺术教育: 辅助教学,帮助学生理解和实践不同艺术风格。
  • 娱乐互动: 实时生成艺术化图像,增强互动体验。

开放资源,助力研究

为了推动相关领域的研究,PhotoDoodle团队还推出了包含6种风格和300多个样本的高质量数据集,为相关研究提供基准。

项目地址:

未来展望

PhotoDoodle的推出,无疑为图像编辑领域注入了新的活力。它不仅降低了艺术创作的门槛,让更多人能够体验到艺术的乐趣,也为商业设计提供了更高效、更个性化的解决方案。随着人工智能技术的不断发展,我们有理由相信,PhotoDoodle将在未来发挥更大的作用,推动图像编辑领域的创新与发展。

参考文献


>>> Read more <<<

Views: 4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注