Ostris发布Flex.2：文生图扩散模型新突破

摘要： 人工智能领域持续创新，Ostris公司近日发布了其最新的文本到图像扩散模型——Flex.2-preview。这款拥有80亿参数的开源模型，不仅支持高质量的文本到图像生成，还具备通用控制输入（如线条、姿态、深度）和内置修复功能，为创意设计、图像修复和内容创作等领域带来了新的可能性。Flex.2-preview目前处于早期预览阶段，其强大的灵活性和潜力已引起广泛关注。

引言

在人工智能技术日新月异的今天，文本到图像生成模型正逐渐成为创意产业和学术研究的重要工具。这些模型能够根据用户输入的文本描述，生成逼真且富有创意的图像，极大地拓展了设计师、艺术家和研究人员的想象空间。然而，现有的文本到图像模型往往存在一些局限性，例如对复杂文本描述的理解不足、缺乏对图像生成过程的精细控制以及修复图像瑕疵的能力有限。

为了解决这些问题，Ostris公司推出了一款名为Flex.2-preview的全新文本到图像扩散模型。这款模型不仅具备强大的文本到图像生成能力，还引入了通用控制输入和内置修复功能，为用户提供了前所未有的创作自由度和灵活性。

Flex.2-preview的核心功能

Flex.2-preview作为一款先进的文本到图像扩散模型，其核心功能主要体现在以下几个方面：

1. 文本到图像生成

Flex.2-preview最基本的功能是根据输入的文本描述生成高质量的图像。与许多其他模型不同，Flex.2-preview支持长达512个token的文本输入，这意味着它可以理解更复杂、更细致的描述，从而生成更符合用户意图的图像。

例如，用户可以输入“阳光明媚的海滩，远处有白色的帆船，近处有棕榈树和躺在沙滩上的人们”，Flex.2-preview能够根据这段描述生成一幅逼真的海滩风景画。这种强大的文本理解能力使得Flex.2-preview在创意设计、内容创作等领域具有广泛的应用前景。

2. 内置修复功能（Inpainting）

图像修复是图像处理领域的一个重要课题。传统的图像修复方法往往需要人工干预，效率低下且效果难以保证。Flex.2-preview内置了修复功能，可以自动修复图像的特定区域或替换其中的内容。

用户只需提供需要修复的图像和修复掩码（指示需要修复的区域），Flex.2-preview就能在指定区域生成新的图像内容，从而实现图像的自动修复。这项功能对于修复照片瑕疵、填补图像缺失部分以及进行图像编辑具有重要意义。

3. 通用控制输入

Flex.2-preview支持多种控制输入，包括线条图、姿态图和深度图。这些控制输入可以指导图像生成的方向，使得用户能够更精确地控制图像的细节和风格。

线条图： 用户可以提供一张简单的线条图，Flex.2-preview会根据线条图的轮廓生成相应的图像。这对于将草图转化为逼真图像非常有用。
姿态图： 用户可以提供一张人物姿态图，Flex.2-preview会根据姿态图生成具有相同姿态的人物图像。这对于生成特定动作的人物图像非常有用。
深度图： 用户可以提供一张深度图，Flex.2-preview会根据深度图生成具有相应景深的图像。这对于生成具有立体感的图像非常有用。

通过结合文本描述和控制输入，用户可以实现对图像生成过程的精细控制，从而创作出更符合自己需求的图像。

4. 灵活的微调能力

Flex.2-preview支持基于LoRA（Low-Rank Adaptation）等技术进行微调。这意味着用户可以根据自己的特定需求，对模型进行定制化的训练，使其适应特定的风格或任务需求。

例如，用户可以将Flex.2-preview微调成擅长生成卡通风格图像的模型，或者微调成擅长生成特定场景图像的模型。这种灵活的微调能力使得Flex.2-preview能够满足各种不同的应用需求。

Flex.2-preview的技术原理

Flex.2-preview之所以能够实现上述功能，得益于其先进的技术原理。

1. 扩散模型框架

Flex.2-preview基于扩散模型框架。扩散模型是一种生成模型，其核心思想是通过逐步去除噪声的方式生成图像。

具体来说，扩散模型首先将一张清晰的图像逐渐加入噪声，直到图像完全变成随机噪声。然后，模型学习如何逆转这个过程，即从随机噪声开始，逐步去除噪声，最终生成一张清晰的图像。

通过这种方式，扩散模型能够学习到图像的底层结构和分布，从而生成逼真且富有创意的图像。

2. 多通道输入

Flex.2-preview支持多通道输入，包括文本嵌入、控制输入和修复输入。

文本嵌入： Flex.2-preview使用文本编码器将输入的文本描述转换为模型可以理解的嵌入向量。这些嵌入向量包含了文本描述的语义信息，用于指导图像生成过程。
控制输入： Flex.2-preview将控制输入（如线条图、姿态图和深度图）也转换为模型可以理解的向量。这些向量包含了图像的结构信息，用于引导图像生成的方向。
修复输入： 当用户需要修复图像时，Flex.2-preview会接收修复图像和修复掩码作为输入。修复掩码指示需要修复的区域，Flex.2-preview会在这些区域生成新的图像内容。

通过结合多种输入信息，Flex.2-preview能够更全面地理解用户的意图，从而生成更符合用户需求的图像。

3. 16通道潜在空间

Flex.2-preview使用16通道的潜在空间。潜在空间是扩散模型中的一个重要概念，它指的是模型学习到的图像的压缩表示。

Flex.2-preview的16个通道可以用于存储不同的信息，例如噪声输入、修复图像、修复掩码和控制输入。这种多通道的设计使得Flex.2-preview能够更灵活地处理各种不同的输入信息。

4. 优化的推理算法

为了提高图像生成的速度和质量，Flex.2-preview采用了优化的推理算法，例如“指导嵌入器”（Guidance Embedder）。

“指导嵌入器”是一种高效的推理算法，它可以显著提升生成速度，同时保持高质量的输出。这使得Flex.2-preview能够在较短的时间内生成高质量的图像，从而提高用户的工作效率。

Flex.2-preview的应用场景

Flex.2-preview作为一款功能强大的文本到图像扩散模型，具有广泛的应用场景。

1. 创意设计

Flex.2-preview可以帮助设计师和艺术家快速生成概念图、插画等创意作品。通过输入文本描述和控制输入，设计师可以轻松地将自己的想法转化为视觉图像，从而节省大量的时间和精力。

2. 图像修复

Flex.2-preview可以自动修复照片瑕疵、填补图像缺失部分，适用于图像编辑。这项功能对于修复老照片、恢复损坏的图像以及进行图像增强具有重要意义。

3. 内容创作

Flex.2-preview可以生成广告、视频、游戏素材，提升内容制作效率。例如，广告公司可以使用Flex.2-preview生成各种不同的广告创意，游戏公司可以使用Flex.2-preview生成游戏中的角色和场景。

4. 教育与研究

Flex.2-preview可以生成教学材料，提供AI研究实验平台。例如，教师可以使用Flex.2-preview生成各种不同的教学图片，研究人员可以使用Flex.2-preview进行图像生成、图像修复等方面的研究。

5. 个性化定制

Flex.2-preview可以通过微调模型生成符合个人风格的图像，满足特定需求。例如，用户可以将Flex.2-preview微调成擅长生成自己喜欢的风格的图像，或者微调成擅长生成特定场景的图像。

如何使用Flex.2-preview

Flex.2-preview目前处于早期预览阶段，用户可以通过Hugging Face模型库下载模型并使用。Flex.2-preview支持基于ComfyUI或Diffusers库轻松使用。

ComfyUI： ComfyUI是一个基于节点的图像生成工具，用户可以通过连接不同的节点来构建复杂的图像生成流程。
Diffusers： Diffusers是一个流行的扩散模型库，提供了各种不同的扩散模型和工具，方便用户进行图像生成和研究。

用户可以根据自己的需求选择合适的工具来使用Flex.2-preview。

结论与展望

Ostris推出的Flex.2-preview是一款具有创新性和实用性的文本到图像扩散模型。它不仅具备强大的文本到图像生成能力，还引入了通用控制输入和内置修复功能，为用户提供了前所未有的创作自由度和灵活性。

Flex.2-preview的发布标志着文本到图像生成技术又向前迈进了一步。随着人工智能技术的不断发展，我们有理由相信，未来的文本到图像模型将会更加强大、更加智能，为我们的生活和工作带来更多的便利和惊喜。

尽管Flex.2-preview目前仍处于早期预览阶段，但其所展现出的潜力已经引起了广泛关注。我们期待Ostris公司能够继续改进和完善Flex.2-preview，使其成为一款真正具有革命性的文本到图像生成工具。

同时，我们也希望更多的研究人员和开发者能够参与到Flex.2-preview的开发和应用中来，共同推动文本到图像生成技术的发展，为人工智能领域做出更大的贡献。

参考文献

Hugging Face模型库: https://huggingface.co/ostris/Flex.2-preview
扩散模型 (Diffusion Models): https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ (示例链接，非官方链接)
LoRA (Low-Rank Adaptation): https://arxiv.org/abs/2106.09698 (示例链接，非官方链接)

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Ostris发布Flex.2：文生图扩散模型新突破

作者智能小编

引言