Chart2Code
收藏Chart2Code 数据集概述
数据集简介
Chart2Code是一个用于评估多模态模型理解和生成数据可视化能力的层次化基准数据集,包含从图表到代码的转换任务。
数据规模
- 总任务数:2,023个
- 层级分布:
- Level 1:863个任务
- Level 2:1,010个任务
- Level 3:150个任务
- 图表类型覆盖:
- Level 1:22种图表家族
- Level 2:19种图表家族
- Level 3:12种图表家族
层级结构
Level 1:图表复现
测试模型根据参考图表和用户查询复现图表的基本能力
- level1_direct:无显式数据表的直接复现
- level1_customize:基于定制化文本格式表格数据的复现
- level1_figure:基于定制化图形格式表格数据的复现
Level 2:图表编辑
评估模型对现有图表执行复杂修改的能力,包括更改图表类型、添加/删除元素、修改样式等
Level 3:长表格到图表生成
最具挑战性的级别,要求模型解析信息密集的长表格(如Excel文件)并根据用户指令生成准确的图表
数据字段说明
以level3任务为例的数据字段:
task_id:任务唯一标识符input excel:包含数据表的输入Excel文件路径input image:输入参考图像文件路径instruction:包含图表生成用户指令的文本文件路径GT code:生成图表的真实代码Python文件路径GT image:生成图表的真实图像文件路径source:数据表来源difficulty_score:人工标注的主观难度评级
数据获取
可通过以下命令下载完整评估数据: shell wget https://huggingface.co/datasets/CSU-JPG/Chart2Code/resolve/main/data.zip unzip data.zip
引用信息
bibtex @misc{tang2025chartscodehierarchicalbenchmark, title={From Charts to Code: A Hierarchical Benchmark for Multimodal Models}, author={Jiahao Tang and Henry Hengyuan Zhao and Lijian Wu and Yifei Tao and Dongxing Mao and Yang Wan and Jingru Tan and Min Zeng and Min Li and Alex Jinpeng Wang}, year={2025}, eprint={2510.17932}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2510.17932}, }




