北京 – 字节跳动旗下豆包大模型团队近日发布了其最新的图像生成模型 Seedream 2.0,该模型最大的亮点在于其原生支持中英双语,旨在解决现有图像生成模型在文本渲染和文化理解方面的不足。Seedream 2.0 的发布,标志着国产AI在图像生成领域又迈出了重要一步,有望为海报设计、社交媒体内容创作等领域带来变革。
Seedream 2.0:技术创新与本土化理解的结合
Seedream 2.0 并非简单的多语言翻译模型,而是通过自研的双语大语言模型(LLM)作为文本编码器,直接从海量数据中学习本土知识,从而生成更贴合文化细节和审美表达的高保真图像。这意味着,用户无论是使用中文还是英文进行提示,Seedream 2.0 都能准确理解其意图,并生成符合文化背景的图像。
该模型还应用了 Glyph-Aligned ByT5 模型进行灵活的字符级文本渲染,有效降低了文字崩坏率,使字体变化更自然美观,尤其在生成具有中国风元素的图像时,能呈现出更高质量的效果。此外,Seedream 2.0 采用了 Scaled ROPE 技术,实现了对未训练分辨率的泛化,能够生成各种尺寸和分辨率的图像。
技术原理:多管齐下,打造卓越性能
Seedream 2.0 的技术原理涵盖了数据预处理、模型预训练和模型后训练三个关键环节:
-
数据预处理: 通过精心策划高质量数据对、分布维持数据、知识注入数据和针对性补充数据,并采用多阶段过滤方法确保数据质量。同时,利用主动学习引擎优化图像分类器,并生成通用和专业标题,涵盖多种描述类型。此外,还构建了大规模视觉文本渲染数据集,用于提升文本渲染能力。
-
模型预训练: 采用扩散变换器(DiT)处理图像和文本标记,并使用缩放版二维旋转位置嵌入(Scaling RoPE)支持未训练分辨率的泛化。自研的双语大语言模型(LLM)作为文本编码器,直接从海量数据中学习本土知识,支持高保真图像生成。Glyph-Aligned ByT5 模型则用于实现灵活的字符级文本渲染。
-
模型后训练: 通过持续训练(CT)提升生成图像的美感,使用少量高质量图像进行监督微调(SFT)以提升艺术美感。结合偏好数据、奖励模型和反馈学习算法,进行人类反馈对齐(RLHF),提升模型在图像文本对齐、美学、结构正确性和文本渲染等方面的整体性能。此外,利用微调的 LLM 重写用户提示,提升生成图像质量,并通过细化器将基础模型生成的图像放大到更高分辨率,修复结构错误。
应用场景:赋能多元化内容创作
Seedream 2.0 的强大功能使其在多个领域拥有广阔的应用前景:
- 海报设计: 能够根据用户输入的提示词生成高质量的海报设计,支持复杂的文字渲染和艺术风格。
- 社交媒体内容: 为社交媒体平台生成吸引人的图像,支持多种风格和主题,帮助用户快速生成高质量的社交媒体内容。
- 视频内容: 生成视频内容的封面图、关键帧等,支持多种视频风格和场景,能根据视频内容生成相关的图像。
- 绘画创作: 生成各种风格的绘画作品,支持油画、水彩画、素描等多种艺术风格,能根据用户输入的提示词生成高质量的绘画作品。
- 教学辅助: 生成教学辅助图像,支持多种教学场景,能根据教学内容生成相关的图像。
- 游戏场景生成: 生成游戏中的场景和背景,支持多种游戏风格,能根据游戏内容生成相关的图像。
如何使用 Seedream 2.0
用户可以通过以下两种方式使用 Seedream 2.0:
- 访问平台使用: 访问豆包或即梦的官方网站,注册/登录账号,输入中英文提示词,选择生成模式和参数,即可生成并下载图像。
- 使用 API 接口: 开发者可以通过豆包或即梦平台的开发者文档获取 API Key,使用 HTTP 请求将提示词和生成参数发送到 Seedream 2.0 的 API 接口,并接收返回的图像链接。
未来展望
Seedream 2.0 的发布,不仅是字节跳动在AI领域的又一次重要突破,也为整个图像生成行业带来了新的思路。随着技术的不断发展和应用场景的不断拓展,我们有理由相信,Seedream 2.0 将在未来的内容创作领域发挥更大的作用。
参考文献:
- Seedream 2.0 项目官网: https://team.doubao.com/zh/tech/seedream
- Seedream 2.0 arXIv技术论文: https://arxiv.org/pdf/2503.07703
(完)
Views: 9
