上海 – 在人工智能技术日新月异的今天,矢量图形生成领域迎来了一项突破性进展。复旦大学与StepFun公司联合推出全球首个端到端多模态SVG(可缩放矢量图形)生成模型——OmniSVG。该模型基于预训练视觉语言模型(VLM),通过创新的SVG标记化方法,实现了结构逻辑与几何细节的解耦,为AI设计领域带来了全新的可能性。

技术突破:解耦结构与细节,提升训练效率

OmniSVG的核心在于其独特的SVG标记化方法。传统的矢量图形生成往往面临结构复杂、训练效率低下的问题。而OmniSVG将SVG命令和坐标参数化为离散令牌(tokens),类似于自然语言处理的方式,将复杂的矢量图形分解为更易于处理的“词汇”。这种方法不仅提升了训练效率,更重要的是,它将图形的结构逻辑与几何细节分离,使得模型能够更好地理解和生成复杂的SVG图形。

据项目团队介绍,OmniSVG基于预训练的视觉语言模型Qwen-VL构建,能够深度融合图像和文本信息,为多模态生成提供强大的基础。与传统方法相比,OmniSVG的训练速度提升了3倍以上,并且能够处理长达30,000个令牌的序列,这使得它能够生成包含丰富细节的复杂SVG图形。

多模态生成:文本、图像、角色,随心所欲

OmniSVG最引人注目的特点之一是其多模态生成能力。用户可以通过文本描述、图像参考或角色参考等多种输入方式,直接生成高质量的SVG图形。无论是简单的图标,还是复杂的动漫角色,OmniSVG都能轻松应对。

例如,设计师只需输入“一个微笑的太阳”的文本描述,OmniSVG就能快速生成一个矢量化的太阳图标。或者,用户可以上传一张动漫角色的图片,OmniSVG就能根据图片生成该角色的矢量图形,并允许用户进一步编辑和修改。

数据集与评估:MMSVG-2M与MMSVG-Bench

为了支持OmniSVG的研发和评估,项目团队还发布了MMSVG-2M数据集,其中包含200万个带多模态标注的SVG资源,涵盖图标、插图和角色三大子集。同时,团队还提出了标准化的评估协议MMSVG-Bench,用于测试条件SVG生成任务的性能,为后续的研究和发展奠定了坚实的基础。

应用前景:设计、开发、创作,潜力无限

OmniSVG的出现,无疑将对图形设计、网页开发、游戏开发等领域产生深远的影响。

  • 品牌图标设计: 设计师可以利用OmniSVG根据文本描述快速生成品牌图标,大大减少手动设计时间,提高工作效率。
  • 网页开发: 网页开发者可以利用OmniSVG生成矢量图标,这些图标可以无损缩放,适用于各种分辨率的设备,保证了网页在不同设备上的显示效果。
  • 角色与场景设计: 游戏开发者可以利用OmniSVG生成游戏角色、场景等图形素材,为游戏增添独特的艺术风格。
  • 动态角色生成: 基于角色参考,OmniSVG能够生成保持相同角色特征但姿势或场景不同的矢量图形,为动画制作和游戏开发提供了便利。
  • 快速原型设计: 内容创作者可以用OmniSVG快速生成图标、插图或角色图形的原型,加速创作流程。

生成的SVG文件具有无限可缩放性和完全可编辑性,可以无缝集成到Adobe Illustrator等专业设计工作流程中,进一步提高了AI生成图形在实际应用中的实用性。

项目地址与未来展望

OmniSVG项目已开源,相关资源如下:

OmniSVG的发布,标志着AI在矢量图形生成领域迈出了重要一步。随着技术的不断发展,我们有理由相信,AI将在设计领域发挥越来越重要的作用,为设计师和开发者带来更多的便利和创新。未来,我们期待OmniSVG能够不断完善和发展,为AI设计领域带来更多的惊喜。

参考文献:

(完)


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注