five

ChartStruct

收藏
arXiv2026-02-11 更新2026-02-13 收录
下载链接:
https://github.com/Mighten/chart-specification-paper
下载链接
链接失效反馈
官方服务:
资源简介:
ChartStruct是由早稻田大学等机构提出的结构化平衡数据集,专为图表到代码生成任务设计。该数据集包含3000条精细标注的样本,通过规范化图表语义结构(如布局组合、坐标系统等)来消除代码语法噪声。数据来源于ChartCoder、ReachQA等公开图表库,经过去重和验证处理,覆盖线图、条形图等多种图表类型的生成模式差异。其核心价值在于为视觉语言模型提供结构化的中间表示,显著提升复杂数据依赖关系的建模效率,应用于可视化编辑、文档智能处理等领域。

ChartStruct is a structured and balanced dataset proposed by institutions including Waseda University, specifically designed for the chart-to-code generation task. This dataset contains 3000 meticulously annotated samples, eliminating code syntax noise by standardizing chart semantic structures such as layout combinations and coordinate systems. The data is sourced from public chart repositories including ChartCoder and ReachQA, and has undergone deduplication and validation processing, covering differences in generation patterns across various chart types like line charts and bar charts. Its core value lies in providing structured intermediate representations for vision-language models, significantly improving the modeling efficiency of complex data dependencies, and being applied in fields such as visualization editing and document intelligent processing.
提供机构:
早稻田大学; 中国科学技术大学; 南开大学
创建时间:
2026-02-11
原始信息汇总

Chart Specification 数据集概述

数据集简介

Chart Specification 是一个用于图表到代码生成任务的规范驱动强化学习框架。其核心目标是给定一个栅格化的图表图像,生成能够忠实地重建原始可视化的可执行绘图代码。该框架旨在解决现有方法在恢复图表底层结构逻辑方面的不足。

核心组成部分

1. 图表规范

图表规范是一种结构化的JSON中间表示,用于抽象绘图脚本为可语义验证的组件。

  • 全局拓扑:图表类型、面板布局。
  • 坐标系:笛卡尔坐标系、极坐标系、3D坐标系。
  • 数据域:轴范围、类别。
  • 分析表示:函数形式、变换。
  • 运行时数值事实:通过执行钩子拦截。 该表示形式消除了绘图库的语法噪声,并支持确定性的结构比较。

2. ChartStruct:规范驱动的数据语料库

这是一个通过规范签名引导构建的结构平衡训练语料库。

  • 覆盖范围:包含20个规范图表族系,涵盖55种跨越坐标空间、数据模式和组合拓扑的结构签名。
  • 采样策略:采用复杂性自适应采样,优先考虑困难的结构配置(如3D、多面板、等高线)。
  • 数据规模
    • 3K规模:包含3,008个样本,用于数据效率研究。
    • 4K规模:包含4,000个样本,用于主要实验。
  • 样本构成:每个样本包含图表图像、可执行绘图代码和提取的图表规范。

3. Spec-Align 细粒度奖励机制

这是一个用于强化学习的、可验证的、细粒度的奖励机制,支持结构一致性优化。

  • 总奖励构成:包含格式奖励、执行奖励、语义奖励和代码级校准奖励。
  • 奖励阶段
    1. 格式门控:强制执行推理结构。
    2. 执行门控:沙箱编译检查。
    3. 拓扑门控:检查图表类型、面板布局和全局结构。
    4. 语义对齐:检查坐标系、域交并比、序列一致性和函数匹配。
    5. 代码级校准:基于统计指标、关系F1、向量相似性和数值距离进行评估。

数据集用途与评估

该数据集用于训练和评估图表到代码生成模型。

  • 评估基准:在ChartMimic、Plot2Code和ChartX基准测试中取得了先进的结果。
  • 训练方法:使用Qwen2.5-VL-7B作为骨干模型,并采用分组相对策略优化进行训练。

数据准备与结构

  • 数据构建工具:提供了从绘图脚本中提取语义和运行时规范的工具。
  • 项目结构:包含规范提取、ChartStruct构建、奖励实现、优化训练和评估脚本等模块。

许可信息

数据集在Apache-2.0许可证下发布。

致谢

此工作基于Qwen2.5-VL、Chart2code-160k、ReachQA、ChartMimic、Plot2Code、ChartX和verl等项目构建。

搜集汇总
数据集介绍
main_image_url
构建方式
在图表到代码生成领域,数据集的构建质量直接影响模型对视觉结构逻辑的捕捉能力。ChartStruct数据集通过引入一种称为“图表规范”的结构化中间表示来构建,该规范从可执行的绘图代码中提取语义意图和运行时数值。构建流程首先从ChartCoder等原始代码库中收集样本,并执行严格的验证,确保代码可运行且能无损映射到规范模式。随后,基于规范为每个样本分配高维结构签名,刻画其坐标空间、数据模式和组合拓扑等核心维度。针对不同结构签名的学习难度,数据集采用复杂度自适应采样策略,为三维、嵌套子图等高复杂度拓扑分配更高样本密度,从而构建出一个在结构上平衡、覆盖多样化生成模式的高质量训练语料。
特点
ChartStruct数据集的核心特点在于其以结构为中心的平衡性设计。与依赖表面代码模仿的传统数据集不同,它通过精细的图表规范对样本进行拓扑层面的归类与重组,有效缓解了原始数据中因表面数值变化而隐藏的长尾分布问题。数据集涵盖了20种图表家族下的55种独特结构签名,确保了从基础条形图到复杂雷达图、三维图等多样化拓扑结构的广泛覆盖。其复杂度自适应采样机制进一步强化了这一特性,通过为高难度结构配置分配更多样本,引导模型优先掌握复杂的空间逻辑,而非过度拟合简单的高频模式,从而显著提升了模型在复杂图表上的泛化与推理能力。
使用方法
在视觉语言模型的图表到代码生成任务中,ChartStruct数据集主要用于驱动基于强化学习的策略优化。具体而言,数据集中提取的图表规范被用于构建一个名为“Spec-Align Reward”的细粒度、可验证的奖励机制。该奖励以分层奖励树的形式实现,首先验证生成代码的格式与可执行性,随后通过拓扑门控检查全局图表结构的一致性,最后对坐标系统、数据域、系列标签等语义属性以及运行时拦截的数值原语进行精细校准。研究人员通常将数据集与Group Relative Policy Optimization等强化学习框架结合,利用该结构化奖励为模型提供密集的反馈信号,从而优化模型策略,使其生成的绘图代码不仅在语法上正确,更在视觉结构和数值关系上与原始图表保持高度一致。
背景与挑战
背景概述
ChartStruct数据集于2026年由早稻田大学、中国科学技术大学及南开大学的研究团队联合构建,旨在解决视觉语言模型在图表到代码生成任务中面临的结构保真度挑战。该数据集的核心研究问题聚焦于如何通过结构化中间表示来弥合连续视觉域与离散符号代码域之间的语义鸿沟,从而引导模型从表层代码模仿转向基于语义的结构化监督学习。其创新性地引入了图表规范这一规范化表示,不仅为强化学习提供了细粒度、可验证的反馈信号,更通过结构平衡的数据构建策略,显著提升了模型在复杂图表拓扑上的生成鲁棒性与数据效率,对推动智能文档处理与可视化自动生成领域的发展具有重要影响。
当前挑战
ChartStruct数据集致力于解决图表到代码生成这一核心领域问题,其首要挑战在于确保生成代码的结构保真度,即要求模型从静态图表图像中精确恢复布局结构、数据映射与数值关系,避免产生语义不一致或结构幻觉的输出。在构建过程中,研究团队面临多重挑战:一是原始图表数据存在显著的长尾分布与拓扑不平衡,简单类别样本过剩而复杂结构样本稀缺;二是需要设计一种既能抽象图表语义意图,又能兼容不同绘图库语法变体的规范化中间表示;三是必须开发一种能够提供密集、可验证反馈的奖励机制,以克服传统二进制执行反馈过于稀疏、像素级比对受风格噪声干扰的缺陷,从而有效指导模型优化。
常用场景
经典使用场景
在图表智能理解与自动生成的研究领域,ChartStruct数据集的核心应用场景在于为视觉语言模型提供结构化的训练与评估基准。该数据集通过引入图表规范这一中间表示,将传统的图表到代码生成任务从浅层的代码模仿转变为深层的语义结构监督。研究人员利用ChartStruct构建的平衡数据分布,能够系统性地探索模型在复杂图表拓扑(如嵌套子图、三维坐标系)下的推理能力,从而推动跨模态表示学习在结构化视觉域的发展。
解决学术问题
ChartStruct数据集有效应对了图表到代码生成中存在的结构性幻觉与语义不一致等关键学术挑战。传统方法依赖大规模监督微调,迫使模型在单一步骤内跨越视觉连续域与代码离散域之间的鸿沟,导致生成结果在布局逻辑或数据映射上出现偏差。该数据集通过图表规范对坐标系统、数据绑定和功能关系进行显式编码,为强化学习提供了可验证的细粒度反馈信号,从而解决了奖励稀疏性与像素级比较不可靠等优化难题,显著提升了模型的结构保真度与逻辑一致性。
衍生相关工作
围绕ChartStruct数据集的结构化监督范式,学术界衍生出一系列专注于提升图表推理鲁棒性的经典工作。基于其提出的Spec-Align奖励机制,后续研究探索了在数学公式图表、网络拓扑图等更复杂视觉形态上的泛化能力。同时,该数据集启发了对多模态链式思维推理的深入探索,例如将图表规范分解为序列化的推理步骤,以增强模型对隐含数据关系的理解。这些工作共同推动了视觉语言模型在结构化生成任务中从感知到认知的范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作