复旦联手StepFun，OmniSVG革新矢量图形生成！

上海 – 在人工智能技术日新月异的今天，矢量图形生成领域迎来了一项突破性进展。复旦大学与StepFun公司联合推出全球首个端到端多模态SVG（可缩放矢量图形）生成模型——OmniSVG。该模型基于预训练视觉语言模型（VLM），通过创新的SVG标记化方法，实现了结构逻辑与几何细节的解耦，为AI设计领域带来了全新的可能性。

技术突破：解耦结构与细节，提升训练效率

OmniSVG的核心在于其独特的SVG标记化方法。传统的矢量图形生成往往面临结构复杂、训练效率低下的问题。而OmniSVG将SVG命令和坐标参数化为离散令牌（tokens），类似于自然语言处理的方式，将复杂的矢量图形分解为更易于处理的“词汇”。这种方法不仅提升了训练效率，更重要的是，它将图形的结构逻辑与几何细节分离，使得模型能够更好地理解和生成复杂的SVG图形。

据项目团队介绍，OmniSVG基于预训练的视觉语言模型Qwen-VL构建，能够深度融合图像和文本信息，为多模态生成提供强大的基础。与传统方法相比，OmniSVG的训练速度提升了3倍以上，并且能够处理长达30,000个令牌的序列，这使得它能够生成包含丰富细节的复杂SVG图形。

多模态生成：文本、图像、角色，随心所欲

OmniSVG最引人注目的特点之一是其多模态生成能力。用户可以通过文本描述、图像参考或角色参考等多种输入方式，直接生成高质量的SVG图形。无论是简单的图标，还是复杂的动漫角色，OmniSVG都能轻松应对。

例如，设计师只需输入“一个微笑的太阳”的文本描述，OmniSVG就能快速生成一个矢量化的太阳图标。或者，用户可以上传一张动漫角色的图片，OmniSVG就能根据图片生成该角色的矢量图形，并允许用户进一步编辑和修改。

数据集与评估：MMSVG-2M与MMSVG-Bench

为了支持OmniSVG的研发和评估，项目团队还发布了MMSVG-2M数据集，其中包含200万个带多模态标注的SVG资源，涵盖图标、插图和角色三大子集。同时，团队还提出了标准化的评估协议MMSVG-Bench，用于测试条件SVG生成任务的性能，为后续的研究和发展奠定了坚实的基础。

应用前景：设计、开发、创作，潜力无限

OmniSVG的出现，无疑将对图形设计、网页开发、游戏开发等领域产生深远的影响。

品牌图标设计： 设计师可以利用OmniSVG根据文本描述快速生成品牌图标，大大减少手动设计时间，提高工作效率。
网页开发： 网页开发者可以利用OmniSVG生成矢量图标，这些图标可以无损缩放，适用于各种分辨率的设备，保证了网页在不同设备上的显示效果。
角色与场景设计： 游戏开发者可以利用OmniSVG生成游戏角色、场景等图形素材，为游戏增添独特的艺术风格。
动态角色生成： 基于角色参考，OmniSVG能够生成保持相同角色特征但姿势或场景不同的矢量图形，为动画制作和游戏开发提供了便利。
快速原型设计： 内容创作者可以用OmniSVG快速生成图标、插图或角色图形的原型，加速创作流程。

生成的SVG文件具有无限可缩放性和完全可编辑性，可以无缝集成到Adobe Illustrator等专业设计工作流程中，进一步提高了AI生成图形在实际应用中的实用性。

项目地址与未来展望

OmniSVG项目已开源，相关资源如下：

项目官网：https://omnisvg.github.io/
Github仓库：https://github.com/OmniSVG
HuggingFace模型库：https://huggingface.co/OmniSVG
arXiv技术论文：https://arxiv.org/pdf/2504.06263 (请注意，此链接是根据信息推测的，实际链接可能有所不同，请以官方公布为准)

OmniSVG的发布，标志着AI在矢量图形生成领域迈出了重要一步。随着技术的不断发展，我们有理由相信，AI将在设计领域发挥越来越重要的作用，为设计师和开发者带来更多的便利和创新。未来，我们期待OmniSVG能够不断完善和发展，为AI设计领域带来更多的惊喜。

参考文献：