SVG-Sophia

github2026-03-18 更新2026-03-19 收录

下载链接：

https://github.com/hmwang2002/CTRL-S

下载链接

链接失效反馈

官方服务：

资源简介：

SVG-Sophia是一个高质量的数据集，包含145K样本，涵盖SVG代码精炼、文本到SVG和图像到SVG任务。数据集用于支持结构化推理，并在多任务多奖励强化学习框架中优化生成能力。

SVG-Sophia is a high-quality dataset comprising 145K samples, covering three core tasks: SVG code refinement, text-to-SVG, and image-to-SVG. This dataset is designed to support structured reasoning and optimize generation capabilities within a multi-task, multi-reward reinforcement learning framework.

创建时间：

2026-03-16

原始信息汇总

数据集概述

数据集基本信息

数据集名称：SVG-Sophia
官方发布地址：https://huggingface.co/datasets/InternSVG/SVG-Sophia
关联研究论文：Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning
论文链接：https://arxiv.org/abs/2603.16189
数据集发布者/机构：InternSVG
数据集发布日期：2026-03-18

数据集目的与背景

该数据集是研究项目“CTRL-S”的一部分，旨在支持可缩放矢量图形（SVG）大语言模型（SVG-LLMs）的可靠推理。数据集被设计用于通过引入思维链（Chain-of-Thought）机制，在SVG生成过程中显式暴露模型的推理过程，从而提升模型的结构连贯性和生成能力。

数据集内容与规模

总样本量：145,000个样本
任务覆盖：包含SVG代码精炼（SVG code refinement）、文本到SVG（Text-to-SVG）以及图像到SVG（Image-to-SVG）三个任务。
数据格式：数据以JSON Lines（.jsonl）文件格式提供。

数据集文件结构

数据集文件组织如下，所有文件均可在Hugging Face仓库获取：

文件名	描述
`cot_img2svg_sft.jsonl`	用于监督微调（SFT）阶段的图像到SVG任务的思维链训练数据。
`cot_text2svg_sft.jsonl`	用于监督微调（SFT）阶段的文本到SVG任务的思维链训练数据。
`cot_refinement_sft.jsonl`	用于监督微调（SFT）阶段的SVG代码精炼任务的思维链训练数据。
`cot_img2svg_rl.jsonl`	用于强化学习（RL）阶段的图像到SVG任务的思维链训练数据。
`cot_text2svg_rl.jsonl`	用于强化学习（RL）阶段的文本到SVG任务的思维链训练数据。
`cot_refinement_rl.jsonl`	用于强化学习（RL）阶段的SVG代码精炼任务的思维链训练数据。
`cot_refinement_test.jsonl`	SVG代码精炼任务的测试集。

文件命名规则说明：

带有 _sft 后缀的文件用于SFT阶段的训练。
带有 _rl 后缀的文件用于RL阶段的训练。
cot_refinement_test.jsonl 是SVG代码精炼任务的独立测试集。

数据集用途

模型训练：用于CTRL-S框架的两阶段训练。
- 第一阶段（SFT）：使用SVG-Sophia数据集对模型进行微调，以学习具有显式分步规划的思维链结构响应。
- 第二阶段（RL）：在多任务（文本到SVG、图像到SVG、SVG精炼）设置下，通过多奖励机制（包括格式奖励、DINO奖励、图文相似性奖励和代码效率奖励）联合优化模型。
模型评估：cot_refinement_test.jsonl 作为SVG代码精炼任务的基准测试集，用于评估模型性能。

相关资源

评估基准：数据集支持在SArena基准（需从 https://github.com/hmwang2002/InternSVG 下载）和SVG-Sophia精炼测试集上进行评估。
项目代码库：https://github.com/hmwang2002/CTRL-S
许可证：Apache License 2.0

搜集汇总

数据集介绍

构建方式

在可缩放矢量图形生成领域，SVG-Sophia数据集的构建体现了对结构化推理过程的高度重视。该数据集通过精心设计，涵盖了SVG代码精炼、文本到SVG以及图像到SVG三大核心任务，总计包含14.5万个高质量样本。其构建过程特别引入了链式思维机制，旨在显式地暴露模型在生成过程中的推理步骤，从而为后续的强化学习训练提供清晰、可追溯的规划轨迹。这种以任务为导向、强调过程透明化的数据构造方法，为提升大语言模型在矢量图形生成中的可靠性与可控性奠定了坚实基础。

特点

SVG-Sophia数据集的核心特点在于其多任务集成与结构化表示。数据集不仅覆盖了SVG生成的多个关键应用场景，更在数据组织上采用了明确的链式思维格式，将复杂的生成任务分解为连贯的推理步骤。这种结构使得数据不仅包含最终的目标输出，还完整记录了达成目标的中间规划过程，极大地增强了模型的可解释性与学习效率。此外，数据集为监督微调和强化学习两个训练阶段分别提供了专门的数据划分，确保了训练流程的连贯性与评估的严谨性，构成了一个支持端到端训练与评估的完整生态系统。

使用方法

该数据集的使用紧密围绕CTRL-S框架的两阶段训练流程展开。在监督微调阶段，研究人员可利用带有`_sft`后缀的JSONL文件，使模型学习链式思维结构下的分步响应。进入强化学习阶段，则使用`_rl`后缀的文件，结合多奖励机制——包括格式奖励、DINO奖励、图文相似性奖励和代码效率奖励——在多任务设置下进行联合优化。对于模型性能的评估，数据集提供了独立的SVG代码精炼测试集，同时也可与SArena等外部基准结合使用。用户通过修改项目提供的推理与评估脚本，指定相应的数据路径，即可便捷地完成从模型训练到效果验证的全过程。

背景与挑战

背景概述

在可缩放矢量图形（SVG）与大型语言模型（LLMs）交叉融合的前沿领域，SVG-Sophia数据集于2026年由InternSVG团队构建并发布，旨在支撑CTRL-S框架中链式思维机制的实现。该数据集聚焦于SVG代码生成与推理的核心研究问题，涵盖了文本到SVG、图像到SVG以及SVG代码精炼三大任务，共计包含14.5万条高质量样本。其诞生标志着SVG生成研究从单纯的结构合成迈向可解释、多任务协同的可靠推理阶段，为提升生成模型的视觉保真度与结构连贯性提供了关键数据基础，对计算机视觉与图形学领域的智能化发展产生了深远影响。

当前挑战

SVG-Sophia数据集致力于解决SVG生成领域长期存在的挑战，即如何确保模型在生成复杂矢量图形时，既能保持代码的结构有效性，又能实现高度的语义对齐与视觉逼真度。具体而言，构建过程面临多重困难：一是高质量SVG样本的稀缺性，需要从海量异构数据中筛选并标注出符合多任务要求的实例；二是链式思维注释的复杂性，要求对每一步推理过程进行精确的结构化描述；三是在多奖励强化学习框架下，需平衡格式奖励、DINO奖励、图像-文本相似性奖励及代码效率奖励之间的协同优化，以达成多任务性能的全面提升。

常用场景

经典使用场景

在可缩放矢量图形（SVG）生成与推理领域，SVG-Sophia数据集作为高质量的多任务基准，其经典使用场景集中于训练和评估大型语言模型在SVG代码生成、文本到SVG转换以及图像到SVG转换任务中的结构化推理能力。该数据集通过引入链式思维机制，使模型能够显式地展示生成过程中的推理步骤，从而提升代码的结构连贯性与视觉保真度。研究人员通常利用该数据集进行监督微调和强化学习阶段的训练，以优化模型在复杂SVG生成任务中的性能。

衍生相关工作

围绕SVG-Sophia数据集，学术界衍生了一系列经典研究工作，其中最具代表性的是CTRL-S框架，该框架首次将链式思维机制与多任务多奖励强化学习相结合，系统提升了SVG生成模型的推理可靠性与生成质量。此外，基于该数据集的评估基准如SArena被广泛用于比较不同SVG生成模型的性能。这些工作不仅推动了SVG生成领域的方法创新，也为多模态语言模型在结构化图形生成任务中的能力拓展提供了重要参考。

数据集最近研究