北京 – 字节跳动Seed团队今日正式发布了其最新图像编辑模型SeedEdit 3.0。这款模型基于字节跳动自研的文生图模型Seedream 3.0,通过采用多样化的数据融合方法与特定奖励模型,显著提升了图像在编辑过程中主体、背景和细节的保持能力。据官方介绍,SeedEdit 3.0在人像编辑、背景更改等场景中表现出色,并已在即梦网页端开启测试,即将登陆豆包App。

长期以来,AI驱动的图像编辑需求在视觉内容创作领域日益增长。然而,此前的图像编辑模型在主体和背景保持、指令遵循等方面存在局限,导致编辑后图像的可用率不高。SeedEdit 3.0的发布,旨在解决这些难题,为用户提供更高效、更精准的图像编辑体验。

技术亮点:4K处理、精准识别与细节保留

SeedEdit 3.0能够处理并生成高达4K分辨率的图像,在精细且自然地处理编辑区域的同时,还能高保真地维持其他信息。尤其针对图像编辑中“哪里改与哪里不改”的权衡,该模型表现出更佳的理解力和判断力,从而提高了可用率。

例如,当用户需要去除图片中的行人时,SeedEdit 3.0不仅可以准确识别并移除场景内的无关人物,甚至连影子也能一并去除。在2D绘画转为真实模特的任务中,SeedEdit 3.0能够较好地保持人物的衣帽穿搭与手提包等细节,生成兼具时尚感的街拍效果。

数据融合与奖励模型:提升编辑质量的关键

为了实现上述能力,Seed团队在SeedEdit 3.0的研发工作中提出了一种高效的数据融合策略,并构建了多种专用奖励模型。通过将这些奖励模型与扩散模型联合训练,团队针对性地改善了关键任务的编辑质量,例如人脸对齐、文本渲染等。

据了解,Seed团队专门开发了一套增强型数据融合策略,考虑不同任务与场景,构建了以下几个类别的数据:

  • 合成数据集: 通过配对采样策略,使模型能够关注重要和长尾的任务类型与图像主体,理解各种主体姿势的几何推理变化。
  • 编辑专家数据: 以合规方式收集真实数据,包含大量专业图像编辑流程,充分覆盖各类专家场景。
  • 传统人工编辑操作数据: 基于传统编辑工具制作高质量编辑操作数据,让模型“理解”编辑行为中“变”与“不变”的差异。
  • 视频帧与多镜头大规模多样化真实图像对: 从视频素材中采样编辑对,提升模型对图像任务的理解力。

评测结果:保持能力突出,可用率显著提升

为了评估SeedEdit 3.0的性能,Seed团队构建了包含数百张真实与合成测试图像的集合,涵盖23类编辑操作子任务。机器评测结果显示,SeedEdit 3.0在编辑保持效果、指令响应能力上均领先于此前的版本。

真人评测结果也显示,SeedEdit 3.0的图像保持能力最为突出,保持能力得分达到4.07分(满分5分),较此前版本SeedEdit 1.6提升了1.19分;SeedEdit 3.0的可用率达56.1%,较SeedEdit 1.6绝对值增加17.46个百分点。

体验与未来展望

目前,SeedEdit 3.0的技术报告已对外公开,模型同步在即梦网页端开启测试,豆包App也即将上线。字节跳动Seed团队表示,他们将继续致力于提升图像编辑模型的性能,为用户带来更智能、更便捷的图像编辑体验。

参考链接:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注