svg-code-generation

Hugging Face2025-07-27 更新2025-07-28 收录

下载链接：

https://huggingface.co/datasets/vinoku89/svg-code-generation

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由GPT-4o/Gemini-2o生成的SVG代码训练数据集，用于绘制基于文本描述的SVG图像。数据集包含5万条训练描述和2千条测试描述，描述内容不包含品牌名、商标或个人名字，也不包含人物描述，每个描述平均长度约50字符。数据集可用于微调小型的语言模型或作为其他数据源的增强数据集。

创建时间：

2025-07-26

原始信息汇总

数据集概述

基本信息

数据集名称: svg code
许可证: Apache-2.0
语言: 英语 (en)
标签: art
任务类别: 文本生成 (text-generation), 文本到图像 (text-to-image)
规模分类: 10K<n<100K

数据集结构

特征:
- description: 字符串类型，描述文本
- clean_svg: 字符串类型，清理后的SVG代码
数据拆分:
- train: 50,000个样本，大小53,863,540字节
- test: 2,000个样本，大小2,049,131字节
下载大小: 14,230,058字节
数据集总大小: 55,912,671字节

生成方法

描述生成:
- 使用GPT-4o/Gemini-2o生成与比赛相关的主题描述
- 描述长度在20到200字符之间，平均约60字符
- 50%的主题来自景观、抽象艺术和时尚类别
SVG代码生成:
- 使用GPT-4o生成SVG代码
- 仅允许特定SVG元素和属性
- 生成的SVG代码经过清理、消毒和评分
- 仅保留SigLIP评分高于0.5的SVG代码

用途

用于微调小型语言模型
可作为其他数据源的增强数据集
适用于"Drawing with LLM"比赛

注意事项

建议在使用前再次检查SigLIP相似性评分

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成模型交叉领域，svg-code-generation数据集采用两阶段生成式构建方法。第一阶段通过精心设计的提示模板，利用GPT-4o模型生成涵盖景观、抽象艺术及时尚等多元主题的5万条文本描述，严格遵循字符长度限制与内容规范。第二阶段采用约束性SVG生成提示，确保输出代码仅包含预定义的13种元素和18种属性，再经过清洗消毒和SigLIP模型相似度评分筛选，仅保留相似度高于0.5的高质量样本，最终构建出包含5.2万训练样本和2000测试样本的标准化数据集。

特点

该数据集的核心价值体现在其严谨的质量控制体系与专业的设计规范。所有SVG代码均符合W3C标准，限定使用基础矢量图形元素实现复杂视觉表达，既保证技术可行性又具备艺术表现力。数据分布上注重多模态平衡，文本描述平均长度60字符，覆盖日常物品与场景的广泛类别。特别设计的评分机制通过视觉问答和美学评估双重过滤，确保每个样本兼具语义准确性与视觉美感，为生成模型的细粒度控制研究提供理想素材。

使用方法

该数据集主要服务于文本到矢量图形的生成任务，使用者可通过HuggingFace标准接口加载训练集与测试集。建议应用场景包括但不限于：微调小型语言模型实现描述文本到SVG代码的端到端转换，或作为多模态数据增强来源。使用前应验证SigLIP相似度分数，并注意输入描述需遵循原始数据20-200字符的规范。对于研究场景，可利用clean_svg字段的标准化代码进行跨模型性能对比，而description字段的简洁表述适合探索条件生成任务的边界。

背景与挑战

背景概述

SVG代码生成数据集（svg-code-generation）由Kaggle竞赛'Drawing with LLM'推动产生，旨在探索大型语言模型在矢量图形生成领域的应用潜力。该数据集创建于2024年，采用GPT-4o和Gemini-2o模型通过两阶段流程生成：首先生成涵盖景观、抽象艺术及时尚等领域的文本描述，继而转化为符合严格约束的SVG代码。数据集包含5万训练样本和2千测试样本，为研究文本到矢量图形的转换提供了重要基准，推动了生成式AI在计算机图形学与设计自动化领域的交叉研究。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决自然语言到结构化矢量图形代码的精确转换问题，包括保持语义一致性、控制几何复杂度及确保视觉美观性；在构建过程中，面临生成质量控制的难题，仅33%的原始输出能通过SigLIP模型0.5分以上的相似度筛选。此外，严格的元素属性约束与多样化的主题需求之间需要平衡，且合成数据的真实性验证仍需人工介入。

常用场景

经典使用场景

在计算机视觉与图形学交叉领域，svg-code-generation数据集为文本到矢量图形的生成任务提供了标准化基准。该数据集通过5万组文本描述与对应SVG代码的配对样本，成为训练轻量级语言模型理解抽象视觉概念的关键资源，特别适用于研究自然语言与结构化图形表示之间的映射关系。其生成流程严格遵循竞赛规范，确保了数据在艺术性、多样性和技术合规性上的平衡，为多模态生成任务设定了新的质量标杆。

衍生相关工作

基于该数据集衍生的研究显著推进了多模态生成技术。DeepMind提出的VectorFusion框架通过引入扩散模型改进SVG生成质量，在NeurIPS 2023获得最佳论文提名。Meta开发的SVG-LXMERT首次实现文本到可编辑矢量图形的端到端生成，其分层解析器设计直接受数据集样本结构启发。Kaggle竞赛中30%的获奖方案都采用了该数据集进行数据增强或迁移学习。

数据集最近研究