字节跳动发布Seedream 2.0，图像生成新突破

北京 — 在人工智能图像生成领域，字节跳动正以其最新力作 Seedream 2.0 强势入局。这款由豆包大模型团队打造的原生中英双语图像生成模型，旨在解决现有模型在文本渲染和文化理解方面的固有缺陷，为用户提供更精准、更具美感的图像生成体验。

Seedream 2.0 的核心优势：

强大的双语理解能力： Seedream 2.0 能够精准理解中英文指令，生成具有文化细微差别的图像，打破了语言与视觉之间的壁垒。这对于需要同时处理中英文内容的用户来说，无疑是一大福音。
优秀的文本渲染能力： 解决了长期困扰图像生成领域的文字崩坏问题，Seedream 2.0 能够呈现更自然、更具美感的字体变化，尤其在生成国风图案和元素时，能够输出高质量的结果。
多分辨率生成能力： 采用三重升级的 DiT 架构，Seedream 2.0 实现了多分辨率生成和训练稳定性的提升，能够生成从未训练过的图像尺寸和各种分辨率，极大地拓展了应用场景。
基于人类反馈的强化学习（RLHF）优化： 通过自研奖励模型与反馈学习算法，Seedream 2.0 在图像文本对齐、美学、结构正确性、文本渲染等方面实现了整体性能的提升，使其输出更符合人类的审美偏好。

技术原理剖析：

Seedream 2.0 的技术突破离不开其精细的数据预处理和模型后训练过程。

数据预处理： 模型团队精心策划了高质量数据对、分布维持数据、知识注入数据和针对性补充数据，并通过多阶段过滤方法确保数据质量。此外，主动学习引擎和图像标注技术也为训练数据集的高质量提供了保障。
模型预训练： Seedream 2.0 采用了扩散变换器（DiT）处理图像和文本标记，并应用缩放版二维旋转位置嵌入（Scaling RoPE）支持未训练分辨率的泛化。自研的双语大语言模型（LLM）直接从海量数据中学习本土知识，为高保真图像生成提供了有力支持。
模型后训练： 通过持续训练（CT）、监督微调（SFT）和人类反馈对齐（RLHF）等手段，Seedream 2.0 不断提升生成图像的美感和整体性能。此外，提示工程（PE）和细化器的应用进一步提升了生成图像的质量。

应用场景广泛：

Seedream 2.0 的强大功能使其在多个领域具有广泛的应用前景：