text-to-svg

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/aagoluoglu/text-to-svg

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自NYU Tandon Deep Learning (ECE-GY 7123) Spring 2026课程举办的Kaggle竞赛“DL Spring 2026 – SVG Generation from Text Prompts”，旨在从文本提示生成SVG图像。数据集包含训练集和测试集，其中训练集（train.csv）有50,000条记录，每条包含唯一的ID、自然语言描述（平均约20词）和对应的SVG代码（256x256画布）；测试集（test.csv）有1,000条记录，仅包含ID和自然语言描述。此外，还提供了一个经过过滤的子集（train_filtered.csv），用于微调。数据集遵循CC BY-NC-SA 4.0许可，允许非商业用途的共享和改编，但需署名并采用相同许可。适用场景包括文本到图像的生成任务，特别是SVG图像的生成与代码转换。

创建时间：

2026-03-24

原始信息汇总

数据集概述

基本信息

数据集名称: NYU DL Spring 2026 – SVG Generation from Text Prompts
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/aagoluoglu/text-to-svg
许可协议: CC BY-NC-SA 4.0
任务类别: 文本到图像
语言: 英语
标签: svg, code-generation, text-to-svg

来源与背景

来源课程: NYU Tandon Deep Learning (ECE-GY 7123) Spring 2026
来源竞赛: Kaggle: DL Spring 2026 – SVG Generation from Text Prompts
竞赛地址: https://www.kaggle.com/competitions/dl-spring-2026-svg-generation/overview
数据集用途: 此数据集由课程教师作为竞赛数据提供，在此重新分发是为了使相关课程项目具有可复现性。

文件内容

文件	行数	描述
`train.csv`	50,000	包含 `id`、`prompt`、`svg` 列，用于训练的文本-SVG真实配对数据
`test.csv`	1,000	包含 `id`、`prompt` 列，用于生成SVG的文本提示
`train_filtered.csv`	不定	用于微调的过滤子集（由 `01_data_exploration.ipynb` 生成）

数据结构

train.csv 列:
- id: 唯一行标识符（UUID）
- prompt: 自然语言描述（平均约20个单词）
- svg: 真实SVG代码（画布尺寸为256x256）
test.csv 列:
- id: 唯一行标识符
- prompt: 自然语言描述

许可信息

许可协议: CC BY-NC-SA 4.0
许可链接: https://creativecommons.org/licenses/by-nc-sa/4.0/
使用限制: 此数据可用于非商业目的的共享和改编，使用时需注明出处，且任何衍生作品必须使用相同的许可协议。

引用要求

若使用此数据集，请引用来源竞赛：

NYU Tandon Deep Learning Spring 2026 Kaggle Competition "DL Spring 2026 – SVG Generation from Text Prompts" https://www.kaggle.com/competitions/dl-spring-2026-svg-generation/overview

搜集汇总

数据集介绍

构建方式

在计算机视觉与图形生成领域，将自然语言描述转化为可缩放矢量图形（SVG）是一项具有挑战性的任务。该数据集源自纽约大学坦登工程学院2026年春季深度学习课程的Kaggle竞赛，旨在推动文本到SVG生成技术的研究。构建过程中，课程组织者精心收集了五万条训练样本，每条样本包含一个独特的标识符、一段约二十词的自然语言提示以及对应的SVG代码。这些SVG图形均基于256x256像素的画布生成，确保了数据的一致性与规范性。此外，数据集还包含一千条测试样本，仅提供提示文本，用于评估模型的泛化能力。

特点

该数据集的核心特点在于其专注于文本到SVG的生成任务，这区别于传统的文本到栅格图像生成，直接涉及结构化图形代码的合成。数据集中每个样本的SVG代码均以纯文本形式存储，便于直接用于代码生成模型的训练与评估。提示文本平均长度约为二十词，覆盖了多样化的描述场景，为模型提供了丰富的语义信息。数据集结构清晰，训练集与测试集分离明确，并额外提供了一个经过过滤的子集，可用于微调等特定实验需求。这种设计使得数据集既适用于竞赛环境，也适合学术研究中的模型开发与验证。

使用方法

使用该数据集时，研究者可将其直接应用于训练端到端的文本到SVG生成模型。典型流程包括利用训练集中的提示-SVG对进行模型参数学习，随后在测试集上评估生成SVG的准确性与质量。由于SVG代码是文本序列，模型架构可借鉴自然语言处理或代码生成中的序列到序列范式。数据集提供的过滤子集可用于探索数据清洗或特定场景下的模型微调。需要注意的是，该数据集遵循CC BY-NC-SA 4.0许可，仅限非商业用途，使用时需注明来源并保持相同许可协议。

背景与挑战

背景概述

在计算机视觉与图形学交叉领域，文本到矢量图形的生成任务正逐渐成为研究热点，它旨在将自然语言描述直接转换为可缩放的矢量图形（SVG）代码。由纽约大学坦登工程学院在2026年春季深度学习课程中创建的‘text-to-svg’数据集，作为Kaggle竞赛的核心资源，标志着这一方向从理论探索迈向大规模实践的关键一步。该数据集由课程教师团队构建，专注于解决文本引导的SVG生成问题，通过提供五万条训练样本和一千条测试样本，推动了生成模型在结构化图形输出方面的能力边界，对自动化设计、无障碍内容创建等应用产生了深远影响。

当前挑战

文本到SVG生成任务面临的核心挑战在于如何准确解析自然语言中的空间关系与几何约束，并生成语法正确且视觉逼真的矢量代码，这要求模型同时具备语言理解与图形编程的跨模态能力。在数据集构建过程中，挑战主要源于高质量SVG标注的稀缺性，因为手动编写复杂图形代码耗时费力，且需确保代码简洁性与渲染一致性，这限制了数据规模的扩展与多样性。此外，SVG的结构化特性使得评估生成质量不仅依赖像素级相似度，还需考虑代码的语义准确性与可编辑性，为模型优化带来了独特难题。

常用场景

经典使用场景

在计算机视觉与图形学交叉领域，text-to-svg数据集为文本到矢量图形的生成任务提供了基准。该数据集通过五万条训练样本，将自然语言描述与对应的SVG代码精确配对，典型应用于训练深度神经网络模型，以探索如何从文本提示中直接生成结构化、可缩放的矢量图形。这一场景推动了生成模型在理解几何语义与空间关系方面的能力，为自动化图形设计奠定了基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，包括基于Transformer架构的SVG生成模型、结合强化学习的图形布局优化方法，以及利用扩散模型进行矢量图形合成的创新尝试。这些工作不仅提升了生成图形的视觉质量与结构准确性，还拓展了文本到图形任务的理论边界，为后续大规模矢量图形数据集构建与跨模态生成技术的演进提供了重要参考。

数据集最近研究