MMSVG-2M
收藏arXiv2025-04-09 更新2025-04-10 收录
下载链接:
http://omnisvg.github.io
下载链接
链接失效反馈官方服务:
资源简介:
MMSVG-2M是一个大规模的SVG数据集,包含两百万个SVG样本,涵盖了网站图标、插图、图形设计、动漫角色等。该数据集由复旦大学和StepFun创建,旨在推动SVG生成方法的研究。数据集包含了从互联网上收集的SVG样本,经过去重和简化处理,以五种基本命令(移动至、线至、立方贝塞尔、椭圆弧、闭合路径)进行参数化表示,从而提供了一个统一且简洁的数据结构。MMSVG-2M数据集的应用领域包括文本到SVG、图像到SVG以及角色参考SVG生成等任务,用于评估和促进SVG生成技术的发展。
MMSVG-2M is a large-scale SVG dataset that comprises two million SVG samples, covering website icons, illustrations, graphic designs, anime characters, and more. Developed by Fudan University and StepFun, this dataset aims to advance research on SVG generation methods. It consists of SVG samples collected from the public Internet, which have been processed through deduplication and simplification, and are parameterized using five fundamental SVG commands: Move To, Line To, Cubic Bézier, Elliptical Arc, and Close Path, thereby offering a unified and concise data structure. The MMSVG-2M dataset supports applications including Text-to-SVG, Image-to-SVG, and character reference SVG generation tasks, and is designed to evaluate and facilitate the development of SVG generation technologies.
提供机构:
复旦大学, StepFun
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
MMSVG-2M数据集的构建过程体现了严谨的学术规范与创新的数据工程方法。研究团队通过多源采集策略,从Iconfont、IconSount及Freepik等专业平台获取了200万条原始SVG样本,涵盖图标、插画和动漫角色三大类别。为确保数据质量,采用了基于文件名、SVG代码和元数据的三重去重机制,并利用BLIP-2视觉语言模型生成标准化描述。在数据预处理阶段,创新性地引入原子命令简化策略,将复杂XML语法统一转化为MoveTo、LineTo等五种基础路径命令,通过picosvg工具消除变换属性,构建出层次清晰的结构化向量表示。
特点
该数据集的核心价值体现在其多模态特性和专业标注体系上。作为目前规模最大的SVG专项数据集,MMSVG-2M不仅包含200万条经过语义标注的矢量图形样本,更创新性地建立了文本-SVG-图像三元组关联。其独特之处在于:1) 覆盖从简单图标到复杂角色设计的全复杂度谱系,最大支持3万令牌的细粒度表达;2) 通过标准化原子命令实现几何结构与色彩属性的解耦,支持高效解析与编辑;3) 配套发布的MMSVG-Bench评估体系,首次为文本到SVG、图像到SVG等任务提供标准化测试协议与量化指标。
使用方法
该数据集为矢量图形生成研究提供了完整的实验框架。研究者可通过三种典型范式开展工作:1) 文本引导生成任务中,输入自然语言描述生成对应SVG,采用CLIP分数和FID指标评估语义对齐度;2) 图像矢量化任务支持输入位图输出矢量图形,通过DINO特征相似度衡量几何保真度;3) 角色参考生成任务创新性地实现风格迁移,利用GPT-4o进行跨模态对齐评估。数据集已预分割训练/验证/测试集,并配套开源预处理工具链,支持端到端的模型训练与性能比对。
背景与挑战
背景概述
MMSVG-2M是由复旦大学和StepFun团队于2025年推出的多模态可缩放矢量图形(SVG)生成数据集,旨在解决AIGC领域高质量SVG生成的难题。作为OmniSVG框架的核心组成部分,该数据集包含200万经过精细标注的SVG样本,涵盖图标、插画和动漫角色等多种类型,首次实现了从简单图标到复杂角色设计的全谱系覆盖。其创新性地将视觉语言模型(VLM)与离散化SVG参数编码相结合,突破了传统方法在生成复杂矢量图形时的结构表达瓶颈,为数字艺术创作、UI设计和工业CAD等领域提供了标准化评估基准MMSVG-Bench。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,需解决复杂SVG结构的长序列建模(最高达30k令牌)与多模态条件生成的语义对齐问题,传统方法受限于上下文窗口长度和坐标幻觉现象;在构建过程中,需处理网络爬取SVG数据的XML语法冗余(如Transform属性与路径命令歧义),通过原子化命令简化(保留M/L/C/A/Z/F六类基础命令)和分层去重策略确保数据质量。此外,动漫角色子集的构建需平衡生成式模型输出与矢量转换工具VTracer的保真度,这对评估协议的客观性提出了更高要求。
常用场景
经典使用场景
在计算机视觉与图形学领域,MMSVG-2M数据集为可缩放矢量图形(SVG)的生成研究提供了重要支持。该数据集广泛应用于多模态条件下的SVG生成任务,包括文本到SVG(Text-to-SVG)、图像到SVG(Image-to-SVG)以及基于角色参考的SVG生成(Character-Reference SVG Generation)。通过提供丰富的标注资源和标准化评估协议,MMSVG-2M成为研究复杂SVG结构生成与编辑的关键工具。
解决学术问题
MMSVG-2M数据集解决了SVG生成领域长期存在的两大核心问题:一是缺乏高质量、大规模的多模态SVG数据,传统数据集往往局限于单色图标或简化路径;二是填补了复杂SVG结构生成的空白,通过引入分层结构和丰富色彩语义的样本,支持从简单图标到复杂动漫角色的全谱系生成任务。其标准化评估协议MMSVG-Bench进一步推动了生成质量、多样性和可编辑性等维度的量化研究。
衍生相关工作
围绕MMSVG-2M衍生的研究形成了SVG生成的新范式。OmniSVG框架通过离散化SVG命令令牌实现端到端生成,启发了后续工作如LLM4SVG的语义令牌编码。数据集还催生了针对长序列优化的技术(如30k令牌上下文窗口),推动StarVector等模型改进代码生成能力。其多模态基准更成为评估VLM在图形生成领域性能的新标准。
以上内容由遇见数据集搜集并总结生成



