国产文生图利器：Mini DALL·E 3 亮相！

北京，[日期] – 近日，由北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像（iT2I）框架——Mini DALL·E 3正式亮相，引发业界广泛关注。该框架基于自然语言与用户进行多轮对话，旨在实现高质量图像的生成、编辑和优化，为创意设计、教育娱乐等领域带来新的可能性。

Mini DALL·E 3：交互式文生图的新探索

Mini DALL·E 3的核心在于其交互性。用户不再需要复杂的提示词，只需通过简单的自然语言指令，即可逐步细化图像要求。系统基于大型语言模型（LLM）和预训练的文本到图像模型（如Stable Diffusion），无需额外训练即可生成与文本描述高度一致的图像。更重要的是，系统还支持问答功能，用户可以询问图像细节，系统结合内容进行回答，从而提供更连贯的交互体验，提升人机交互的便捷性和图像生成质量。

技术解析：LLM、提示技术与层次化内容一致性控制

Mini DALL·E 3的技术原理主要体现在以下几个方面：

大型语言模型（LLM）： 利用现有的大型语言模型（如ChatGPT、LLAMA等）作为核心，分析用户的自然语言指令，生成图像描述。通过提示技术，引导LLM生成符合要求的图像描述文本。
提示技术与文本转换： 采用特殊的提示格式（如<image>和<edit>标签），将图像生成任务转化为文本生成任务。基于多轮对话，系统根据上下文和用户反馈逐步优化图像描述。此外，系统还提供提示细化模块，将LLM生成的原始描述进一步优化，适配后续的文本到图像模型。
文本到图像模型（T2I）： 结合现有的文本到图像模型，将LLM生成的图像描述转化为实际的图像。根据描述的复杂性和内容变化的大小，选择不同的T2I模型确保生成质量和效率。
层次化内容一致性控制： 引入不同层次的T2I模型，实现小幅度内容变化（如风格调整）和大幅度内容变化（如场景重构）的灵活处理。基于预训练的T2I模型，将前一次生成的图像作为上下文输入，确保多轮生成中图像内容的一致性。

在系统架构上，Mini DALL·E 3主要由LLM、路由器（router）、适配器（adapter）和T2I模型组成。路由器负责解析LLM的输出，识别图像生成需求传递给适配器。适配器将图像描述转换为适合T2I模型的格式，最终由T2I模型生成图像。