腾讯混元开源InstantCharacter，定制图像生成新突破

北京 – 在人工智能技术日新月异的今天，图像生成领域再次迎来突破。腾讯混元近日开源了其定制化图像生成插件——InstantCharacter，为内容创作者提供了一个全新的工具，能够以高保真、文本可控的方式生成角色一致的图像，极大地拓展了连环画、影视、游戏等领域的创作空间。

InstantCharacter基于扩散Transformer（DiT）框架，并引入了可扩展的适配器和千万级样本的大规模角色数据集，实现了对角色外观、风格和身份的高度一致性保持。用户只需提供一张角色图片和简单的文字描述，即可让角色以任意姿势出现在不同的场景中，这无疑为内容创作带来了极大的便利性和灵活性。

技术解析：DiT架构与可扩展适配器

InstantCharacter的核心在于其技术架构。传统的U-Net架构在图像生成方面存在一定的局限性，而DiT架构则凭借其Transformer的结构，能够更好地处理复杂的图像特征和长距离依赖关系，从而实现更出色的生成能力和灵活性。

为了更好地解析角色特征并与DiT的潜在空间进行交互，InstantCharacter引入了基于Transformer的可扩展适配器模块。该适配器由多个堆叠的Transformer encoder组成，能够逐步细化角色特征，确保与基础模型的无缝对接。同时，利用SigLIP和DINOv2等预训练视觉编码器提取角色的详细特征，有效避免了特征丢失。

大规模数据集与三阶段训练策略

高质量的数据是训练优秀AI模型的基石。InstantCharacter构建了包含千万级样本的大规模角色数据集，该数据集分为配对（多视角角色）和未配对（文本图像组合）子集。配对数据用于优化角色一致性，未配对数据用于优化文本可控性。

为了充分利用这些数据，InstantCharacter采用了三阶段训练策略：

第一阶段： 使用未配对的低分辨率数据进行预训练，保持角色一致性。
第二阶段： 使用配对的低分辨率数据进行训练，增强文本可控性。
第三阶段： 使用高分辨率数据进行联合训练，提升图像保真度。

应用场景：赋能多元内容创作

InstantCharacter的应用前景十分广阔，它不仅可以应用于连环画和漫画创作，快速生成角色在不同场景中的动作和表情，减少手工绘制工作量，还可以应用于影视与动画制作，生成角色概念图和动画场景，快速迭代角色设计，适应不同情节需求。此外，在游戏设计、广告与营销、社交媒体与内容创作等领域，InstantCharacter同样能够发挥重要作用。

项目地址与体验

感兴趣的开发者和用户可以通过以下链接了解更多信息并体验InstantCharacter：