UniSVG

Name: UniSVG
Creator: 浙江大学,腾讯,深圳大学,合肥工业大学
Published: 2025-08-11 16:50:14
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/lili24/UniSVG

下载链接

链接失效反馈

官方服务：

资源简介：

UniSVG 是一个用于矢量图形理解和生成的大型数据集，包含超过52.8万条多模态数据项，旨在支持多模态大型语言模型（MLLM）的训练和评估。该数据集涵盖了从图像到 SVG 的生成、从文本到 SVG 的生成和 SVG 理解三个主要任务，并包含了一个名为 UniSVG-benchmark 的测试集，用于评估 MLLM 在 SVG 任务上的性能。UniSVG 数据集的创建过程包括数据收集、数据清洗和去重、数据转换和多模态整合等步骤。该数据集的应用领域是矢量图形的理解和生成，旨在解决机器对 SVG 图形的理解和生成能力不足的问题。

UniSVG is a large-scale dataset for vector graphic understanding and generation, containing over 528,000 multimodal data items, which aims to support the training and evaluation of multimodal large language models (MLLMs). This dataset covers three core tasks: image-to-SVG generation, text-to-SVG generation, and SVG understanding, and includes a test set named UniSVG-benchmark for evaluating the performance of MLLMs on SVG-related tasks. The construction pipeline of the UniSVG dataset includes procedures such as data collection, data cleaning and deduplication, data transformation, and multimodal integration. The application scope of this dataset focuses on vector graphic understanding and generation, aiming to address the insufficient capabilities of machines in understanding and generating SVG graphics.

提供机构：

浙江大学,腾讯,深圳大学,合肥工业大学

创建时间：

2025-08-11

原始信息汇总

UniSVG数据集概述

数据集简介

名称：UniSVG
规模：525k数据项
用途：专为多模态大语言模型(MLLM)训练和评估设计
功能：支持统一SVG生成（从文本提示和图像）和SVG理解（颜色、类别、用途等）

数据集特点

数据类型：可缩放矢量图形(SVG)代码及相关元数据
核心价值：首个专注于统一SVG生成与理解的综合数据集
技术挑战：解决SVG代码高精度控制及多模态条件约束下的生成问题

使用方式

安装方法： bash pip install datasets
加载示例： python from datasets import load_dataset UniSVG_dataset = load_dataset("lili24/UniSVG") print(UniSVG_dataset[0])

许可信息

原始SVG文件来源：
- Kaggle SVG Icons数据集
- Hugging Face SVGEN-500k-Instruct数据集
其他数据许可：CC BY 4.0许可证

引用文献

bibtex @inproceedings{li2025unisvg, title={UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models}, author={Li, Jinke and Yu, Jiarui and Wei, Chenxing and Dong, Hande and Lin, Qiang and Yang, Liangjing and Wang, Zhicai and Hao, Yanbin}, booktitle={Proceedings of the 33rd ACM international conference on multimedia}, year={2025} }

搜集汇总

数据集介绍

构建方式

UniSVG数据集构建过程严谨且系统化，涵盖了从数据收集到多模态整合的全流程。研究团队从SVG图标和SVGen-500k等开源资源中获取了52.6万份原始SVG代码，通过深度清洗流程剔除了无法渲染的无效文件、冗余XML声明以及嵌套过度的<g>标签。采用感知哈希(pHash)技术进行向量图形去重，并排除了包含超过100条贝塞尔曲线的复杂文件，最终获得36万份高质量SVG样本。基于清洗后的数据，研究团队通过渲染技术生成对应PNG图像，并利用GPT-4V生成包含整体描述、色彩分析、分类标签及使用场景的四段式文本标注(SVGDES)，构建起代码-图像-文本的三模态关联体系。

特点

作为首个面向多模态大语言模型设计的矢量图形综合数据集，UniSVG具有三大核心特征：多任务统一性支持图像到SVG生成(ISVGEN)、文本到SVG生成(TSVGEN)和SVG理解(SVGUN)三类任务；多模态融合包含SVG代码、渲染图像和语义描述三种数据形态；层次化评估体系将理解任务分为基础属性识别、几何特征描述和高级语义推理三个难度层级。数据集包含52.5万训练样本和2850项测试样本，其中生成与理解任务按6:1比例配置，经消融实验验证为最优平衡点。

使用方法

该数据集支持端到端的多模态大语言模型训练与评估。在生成任务中，模型接收图像或文本输入后直接输出SVG代码，通过SSIM、LPIPS和CLIP相似度等指标评估生成质量；理解任务则采用双通道设计，既支持基于SVG代码的解析(CSVGUN)，也支持基于渲染图像的问答(ISVGUN)，通过准确率和BERTScore等指标衡量理解深度。研究建议采用两阶段微调策略：先对齐视觉与语言表征，再针对具体任务微调。特别优化方案包括去除SVG代码冗余小数点以提升35%训练效率，但需权衡精度损失。

背景与挑战

背景概述

UniSVG数据集由浙江大学、腾讯和深圳大学的研究团队于2025年提出，旨在解决多模态大语言模型（MLLMs）在可缩放矢量图形（SVG）理解与生成任务中的关键挑战。SVG因其无损缩放的特性，在计算机视觉和艺术设计领域具有广泛应用，但传统方法如RNN和扩散模型在生成复杂SVG时存在功能局限性和高计算成本。UniSVG作为首个面向统一SVG生成（从文本提示和图像）与理解（颜色、类别、用途等）的大规模开源数据集，包含52.5万条多模态数据，显著提升了开源MLLMs在SVG任务上的性能，甚至超越了GPT-4V等闭源模型。该数据集的发布推动了AI在矢量图形处理领域的发展，为后续研究提供了重要基准。

当前挑战

UniSVG面临的挑战主要体现在两方面：领域问题层面，SVG代码作为由浮点参数控制的几何元素集合，需极高精度生成与解析，且需处理文本提示、视觉参考等多模态约束条件，对模型的跨模态转换能力提出严苛要求；构建过程层面，原始网络SVG数据存在噪声与冗余（如冗余贝塞尔曲线、嵌套标签），需通过感知哈希去重、深度代码清洗等复杂预处理，而GPT-4V生成的描述文本也需规避基准测试中的评估偏差。此外，平衡生成任务（占数据量85%）与理解任务的样本比例，以及优化模型对SVG特有语法（如逗号与小数点的冗余表达）的训练效率，均是构建过程中的技术难点。

常用场景

经典使用场景

在计算机视觉与艺术设计领域，UniSVG数据集通过其52.5万条多模态数据项，为多模态大语言模型（MLLMs）提供了统一的矢量图形理解与生成训练平台。其核心应用场景包括基于文本描述的SVG生成（Text2SVG）、图像到SVG的转换（Image2SVG）以及矢量图形的语义属性分析（如颜色识别、类别分类）。例如，在自动化设计工具中，模型可依据用户输入的草图或自然语言指令实时生成可无限缩放的矢量图标，显著提升了设计效率与跨模态交互能力。

解决学术问题

该数据集解决了三大关键学术问题：一是突破了传统方法在复杂SVG参数生成中的精度瓶颈，通过MLLMs直接建模浮点控制参数序列；二是统一了多模态条件（文本、图像）到矢量代码的端到端转换框架，弥补了早期工作如SketchRNN和VectorFusion在功能单一性上的局限；三是首次构建了覆盖生成与理解任务的全方位评估体系（UniSVG-bench），其引入的结构相似性（SSIM）、CLIP语义相似度等跨层级指标，为领域提供了标准化性能度量基准。

衍生相关工作

基于UniSVG衍生的经典工作包括：LLaVA-LLaMA架构的优化研究证实了代码生成能力对SVG任务的关键影响；Qwen 2.5-VL在细调后超越GPT-4V的生成质量，催生了开源模型SVG-Pro 4的发布。此外，VGBench团队扩展了其评估协议，提出动态路径编辑任务，而OmniSVG则借鉴其多任务框架开发了统一生成模型。这些工作共同推动了矢量图形处理从专业工具向通用AI能力的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集