上海的陆家嘴

北京 – 字节跳动豆包大模型团队近日发布了其最新研发的图像生成模型Seedream 2.0。这款模型主打原生中英双语支持,旨在解决现有图像生成模型在文本渲染和文化理解方面的不足,为用户提供更精准、更具文化内涵的图像生成体验。

Seedream 2.0的核心优势在于其强大的双语理解能力和优秀的文本渲染能力。通过自研的双语大语言模型(LLM)作为文本编码器,Seedream 2.0能够直接从海量数据中学习本土知识,生成具有准确文化细节和审美表达的高保真图像。这对于需要生成包含特定文化元素,例如国风图案、中式建筑等图像的用户来说,无疑是一大福音。

技术亮点:

  • 双语理解能力: Seedream 2.0能够高精度地理解中英文指令,生成具有文化细微差别的图像,打破了不同语言与视觉之间的隔阂。
  • 文本渲染能力: 模型大幅降低了文字崩坏率,使字体变化更加自然美观,尤其在生成包含文字的国风图案和元素时,能够输出高质量的结果。
  • 多分辨率生成能力: 采用三重升级的DiT架构,Seedream 2.0实现了多分辨率生成和训练稳定性的提升,能够生成从未训练过的图像尺寸和各种分辨率。
  • 基于人类反馈的强化学习(RLHF)优化: 通过自研奖励模型与反馈学习算法,Seedream 2.0在图像文本对齐、美学、结构正确性和文本渲染等方面的整体性能得到了显著提升。

技术原理:

Seedream 2.0的技术原理涉及多个层面,包括数据预处理、模型预训练和模型后训练。

  • 数据预处理: 模型采用了精心策划的预训练数据,包括高质量数据对、分布维持数据、知识注入数据和针对性补充数据,并通过多阶段过滤方法确保数据质量和相关性。
  • 模型预训练: Seedream 2.0采用了扩散变换器(DiT)处理图像和文本标记,并应用缩放版二维旋转位置嵌入(Scaling RoPE)支持未训练分辨率的泛化。此外,自研的双语大语言模型(LLM)和字符级文本编码器(Glyph-Aligned ByT5 模型)分别负责文本编码和字符级文本渲染。
  • 模型后训练: 模型通过持续训练(CT)、监督微调(SFT)和人类反馈对齐(RLHF)等方式,不断提升生成图像的美感、文本对齐和整体性能。此外,提示工程(PE)和细化器的应用进一步提升了生成图像的质量和分辨率。

应用场景:

Seedream 2.0的应用场景十分广泛,包括:

  • 海报设计: 生成具有吸引力的海报,支持复杂的文字渲染和艺术风格。
  • 社交媒体内容: 为社交媒体平台生成吸引人的图像,支持多种风格和主题。
  • 视频内容: 生成视频内容的封面图、关键帧等,支持多种视频风格和场景。
  • 绘画创作: 生成各种风格的绘画作品,支持油画、水彩画、素描等多种艺术风格。
  • 教学辅助: 生成教学辅助图像,支持多种教学场景。
  • 游戏场景生成: 生成游戏中的场景和背景,支持多种游戏风格。

性能表现:

经过多轮RLHF优化,Seedream 2.0在提示遵循、美感、文本渲染和结构正确性等方面表现出色,其输出与人类偏好高度一致,ELO得分优异。

如何使用:

用户可以通过访问豆包或即梦的官方网站使用Seedream 2.0。开发者也可以通过获取API Key,将Seedream 2.0集成到自己的应用中。

项目地址:

总结:

Seedream 2.0的发布标志着字节跳动在AI图像生成领域取得了新的突破。凭借其强大的双语理解能力、优秀的文本渲染能力和广泛的应用场景,Seedream 2.0有望成为图像生成领域的一款重要工具,为用户带来更丰富、更便捷的图像生成体验。未来,随着技术的不断发展,Seedream 2.0有望在更多领域发挥重要作用,推动AI技术与文化艺术的融合。


>>> Read more <<<

Views: 5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注