北京 – 字节跳动Seed团队今日正式发布了其最新图像编辑模型SeedEdit 3.0。这款模型基于字节跳动自研的文生图模型Seedream 3.0,通过采用多样化的数据融合方法与特定奖励模型,显著提升了图像在编辑过程中主体、背景和细节的保持能力。据官方介绍,SeedEdit 3.0在人像编辑、背景更改等场景中表现出色,并已在即梦网页端开启测试,即将登陆豆包App。
长期以来,AI驱动的图像编辑需求在视觉内容创作领域日益增长。然而,此前的图像编辑模型在主体和背景保持、指令遵循等方面存在局限,导致编辑后图像的可用率不高。SeedEdit 3.0的发布,旨在解决这些难题,为用户提供更高效、更精准的图像编辑体验。
技术亮点:4K处理、精准识别与细节保留
SeedEdit 3.0能够处理并生成高达4K分辨率的图像,在精细且自然地处理编辑区域的同时,还能高保真地维持其他信息。尤其针对图像编辑中“哪里改与哪里不改”的权衡,该模型表现出更佳的理解力和判断力,从而提高了可用率。
例如,当用户需要去除图片中的行人时,SeedEdit 3.0不仅可以准确识别并移除场景内的无关人物,甚至连影子也能一并去除。在2D绘画转为真实模特的任务中,SeedEdit 3.0能够较好地保持人物的衣帽穿搭与手提包等细节,生成兼具时尚感的街拍效果。
数据融合与奖励模型:提升编辑质量的关键
为了实现上述能力,Seed团队在SeedEdit 3.0的研发工作中提出了一种高效的数据融合策略,并构建了多种专用奖励模型。通过将这些奖励模型与扩散模型联合训练,团队针对性地改善了关键任务的编辑质量,例如人脸对齐、文本渲染等。
据了解,Seed团队专门开发了一套增强型数据融合策略,考虑不同任务与场景,构建了以下几个类别的数据:
- 合成数据集: 通过配对采样策略,使模型能够关注重要和长尾的任务类型与图像主体,理解各种主体姿势的几何推理变化。
- 编辑专家数据: 以合规方式收集真实数据,包含大量专业图像编辑流程,充分覆盖各类专家场景。
- 传统人工编辑操作数据: 基于传统编辑工具制作高质量编辑操作数据,让模型“理解”编辑行为中“变”与“不变”的差异。
- 视频帧与多镜头大规模多样化真实图像对: 从视频素材中采样编辑对,提升模型对图像任务的理解力。
评测结果:保持能力突出,可用率显著提升
为了评估SeedEdit 3.0的性能,Seed团队构建了包含数百张真实与合成测试图像的集合,涵盖23类编辑操作子任务。机器评测结果显示,SeedEdit 3.0在编辑保持效果、指令响应能力上均领先于此前的版本。
真人评测结果也显示,SeedEdit 3.0的图像保持能力最为突出,保持能力得分达到4.07分(满分5分),较此前版本SeedEdit 1.6提升了1.19分;SeedEdit 3.0的可用率达56.1%,较SeedEdit 1.6绝对值增加17.46个百分点。
体验与未来展望
目前,SeedEdit 3.0的技术报告已对外公开,模型同步在即梦网页端开启测试,豆包App也即将上线。字节跳动Seed团队表示,他们将继续致力于提升图像编辑模型的性能,为用户带来更智能、更便捷的图像编辑体验。
参考链接:
- 项目主页:https://seed.bytedance.com/seededit
- 技术报告:https://arxiv.org/pdf/2506.05083
- 体验入口:即梦网页端-图片生成-上传参考图-选择图片 3.0 模型-输入修改 Prompt(灰度测试中); 豆包 App-AI 生图-添加参考图-输入修改 Prompt(即将上线)。
Views: 0