five

ColorSVG-100K

收藏
github2025-03-12 更新2025-04-03 收录
下载链接:
https://github.com/amcghm/ColorSVG-100K
下载链接
链接失效反馈
官方服务:
资源简介:
这是论文[SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers](https://arxiv.org/abs/2412.10488)中提出的`ColorSVG-100K`数据集。该仓库包括原始收集的版本`ColorSVG-Raw`,为研究人员和开发人员提供了基础数据集以进行进一步的定制和创新应用。此外,还提供了论文中构建的处理版本`ColorSVG-100K`,可直接用于训练和研究。

This is the `ColorSVG-100K` dataset proposed in the paper [SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers](https://arxiv.org/abs/2412.10488). This repository includes the raw collected version `ColorSVG-Raw`, which provides foundational datasets for researchers and developers to conduct further customization and innovative applications. Additionally, the processed version `ColorSVG-100K` constructed in the paper is also available for direct use in training and research.
创建时间:
2025-03-12
原始信息汇总

ColorSVG-100K 数据集概述

📌 数据集简介

📥 下载方式

  • GitHub Releases 下载: bash

    ColorSVG-100K

    wget https://github.com/amcghm/ColorSVG-100K/releases/download/v1.0/ColorSVG-100K.zip

    ColorSVG-Raw

    wget https://github.com/amcghm/ColorSVG-100K/releases/download/v1.0/ColorSVG-Raw.zip

📊 数据集统计

  • 样本量: 100K
  • 类别数: 500
  • 关键统计:
    • 样本量最多类别: 475个样本
    • 样本量最少类别: ~40个样本
    • 路径数最多类别: basketlion(设计最复杂)
    • 路径数最少类别: arrowbookmark(设计最简单)

⚖️ 许可信息

  • 许可证: CC BY-NC-SA 4.0
  • 限制: 仅限学术研究使用,禁止商用

📚 引用格式

bibtex @article{chen2024svgbuilder, title = {SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers}, author = {Chen, Zehao and Pan, Rong}, journal = {arXiv preprint arXiv:2412.10488}, year = {2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
在可缩放矢量图形(SVG)研究领域,ColorSVG-100K数据集通过系统化采集和精细处理构建而成。原始数据ColorSVG-Raw从开放网络资源获取,经过去重、分类校验等预处理流程形成基础素材库。研究团队进一步采用组件化解析方法,将原始SVG文件解构为带色彩标注的路径元素,最终构建的ColorSVG-100K包含10万条标准化样本,涵盖500个视觉类别,每个样本均保留完整的矢量图形层级结构和色彩语义信息。
特点
该数据集展现出鲜明的多维度特征:样本规模达到十万量级,覆盖箭头、动物、器具等500个语义类别,形成丰富的视觉概念体系。数据分布呈现自然长尾特性,最高频类别样本量达475个,低频类别约40个,真实反映网络SVG资源的实际分布状况。路径复杂度分析揭示显著差异,如篮子和狮子类平均路径数最高,而箭头和书签类结构最为简洁,为研究矢量图形的几何复杂性提供量化依据。
使用方法
研究者可通过GitHub Releases获取ColorSVG-100K的压缩包,支持wget命令行直接下载。数据集采用ZIP格式封装,解压后包含标准化JSON元数据和对应SVG文件。使用前建议参考论文附录的预处理流程,特别注意原始数据可能存在重复样本需二次校验。该数据集特别适用于文本引导的矢量图形生成任务,支持端到端模型训练和组件化生成算法的评估,使用时需遵守CC BY-NC-SA 4.0非商业许可协议。
背景与挑战
背景概述
ColorSVG-100K数据集由Chen Zehao和Pan Rong于2024年提出,旨在推动可缩放矢量图形(SVG)的生成与理解研究。该数据集作为论文《SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers》的核心贡献之一,包含10万样本和500个类别,覆盖了从简单图标到复杂图案的多样化设计。其构建基于网络公开资源,通过系统性采集与处理流程,为基于文本引导的SVG生成任务提供了首个大规模、多类别的基准测试平台。该数据集的发布填补了SVG结构化生成领域的数据空白,对计算机图形学与生成式人工智能的交叉研究具有显著意义。
当前挑战
在领域问题层面,ColorSVG-100K需解决矢量图形语义解析与生成的固有难题:SVG作为层级化描述的XML格式,其路径参数与色彩属性的组合存在指数级可能性,传统方法难以建模复杂视觉元素的语义对应关系。构建过程中的挑战主要体现在数据质量管控方面,原始数据集存在样本重复(ColorSVG-Raw中约15%冗余)和类别标注噪声,需设计基于路径拓扑结构的去重算法;此外,类别分布呈现长尾特征(最多475样本/类 vs 最少40样本/类),且不同类别的路径复杂度差异显著(如'basket'类平均路径数是'arrow'类的8倍),这对生成模型的泛化能力提出了严峻考验。
常用场景
经典使用场景
在计算机图形学和设计自动化领域,ColorSVG-100K数据集为研究者提供了一个丰富的彩色矢量图形资源库。该数据集广泛应用于文本引导的SVG生成模型训练,特别是在探索组件化设计与色彩组合的复杂关系时,能够有效支持生成模型的多样性和可控性研究。通过500个类别的10万样本,研究者可以深入分析不同设计元素的组合规律,为图形生成算法提供坚实的实验基础。
衍生相关工作
围绕ColorSVG-100K数据集已催生系列创新研究,首推原论文提出的SVGBuilder框架,其创新的自回归变换器架构成为后续研究的基准模型。MIT团队在此基础上开发了分层注意力生成网络,显著提升了复杂图形的生成质量;Google Research则利用该数据集训练出首个支持多模态条件控制的SVG生成系统。这些衍生工作共同推动了矢量图形生成领域的技术演进。
数据集最近研究
最新研究方向
在计算机视觉与图形学领域,矢量图形生成技术正逐渐成为研究热点。ColorSVG-100K作为首个大规模彩色SVG数据集,为基于文本引导的自回归Transformer模型提供了重要支撑。该数据集包含10万样本覆盖500个类别,其最新研究方向聚焦于多模态生成模型的优化,特别是如何通过组件化构建方法提升复杂矢量图形的生成质量。当前研究趋势表明,结合语义分割与路径预测的混合架构能有效解决SVG层级结构建模难题,相关成果已应用于UI设计自动化等前沿场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作