Chart2Code-Benchmark
收藏github2025-10-22 更新2025-10-23 收录
下载链接:
https://github.com/CSU-JPG/Chart2Code
下载链接
链接失效反馈官方服务:
资源简介:
Chart2Code-Benchmark是一个新的基准数据集,旨在评估多模态模型在逐步挑战性条件下的图表生成能力。它涵盖三个逐步挑战的级别:图表复制、图表编辑和长表格到图表生成。Level1(图表复制)从参考图和用户查询中复制图表;Level2(图表编辑)涉及复杂修改,如更改图表类型或添加元素;Level3(长表格到图表生成)要求模型根据用户指令将信息密集的长表格转换为准确的图表。
Chart2Code-Benchmark is a novel benchmark dataset designed to evaluate the chart generation capabilities of multimodal models under progressively challenging conditions. It covers three progressively challenging levels: Chart Replication, Chart Editing, and Long Table-to-Chart Generation. Level 1 (Chart Replication) replicates charts from reference images and user queries; Level 2 (Chart Editing) involves complex modifications such as changing chart types or adding elements; Level 3 (Long Table-to-Chart Generation) requires models to convert information-dense long tables into accurate charts based on user instructions.
创建时间:
2025-10-19
原始信息汇总
Chart2Code数据集概述
数据集简介
Chart2Code-Benchmark是一个用于评估多模态模型在渐进式挑战条件下图表生成能力的新基准。
基准层级结构
数据集包含三个渐进式挑战层级:
Level1:图表复现
- 从参考图和用户查询中复现图表
Level2:图表编辑
- 涉及复杂修改,如更改图表类型或添加元素
Level3:长表格到图表生成
- 将信息密集的长表格按照用户指令转换为准确的图表
数据获取
- 数据下载地址:https://huggingface.co/datasets/CSU-JPG/Chart2Code
- 文件结构包含level1_direct、level1_figure、level1_customize、level2和level3五个主要目录
支持模型
数据集支持多种多模态模型的评估,包括:
- InternVL系列(3.5/3/2.5版本,38B/8B参数)
- Qwen系列(VL-30B/72B/7B参数)
- MOLMO-7B-D
- MIMO-VL-7B系列
- LLaVA系列
- SEED系列(1.6/1.5版本)
- 其他模型:Claude-Sonnet-4、DeepSeek-VL-7B、Gemini-2.5-Pro、GLM-4V-9B、GPT-5、Kimi-VL-A3B
评估流程
评估过程包含四个步骤:
- 检查执行率
- 基础评估
- LLM评估(评估代码质量)
- LMM评估(评估图像质量)
相关资源
- 论文地址:https://arxiv.org/abs/2510.17932v1
- 项目页面:https://csu-jpg.github.io/Chart2Code.github.io/
搜集汇总
数据集介绍

构建方式
在数据可视化领域,Chart2Code-Benchmark采用层次化构建策略,通过三个渐进式难度级别系统评估多模态模型的图表生成能力。第一级图表复现要求模型基于参考图和用户查询精确还原图表;第二级图表编辑涉及复杂的图表类型转换和元素增删操作;第三级长表格转图表则挑战模型从信息密集的长表格中提取关键信息并生成忠实图表的能力。这种分层设计确保了评估体系的全面性和递进性。
特点
该数据集最显著的特征在于其精心设计的层次化评估框架,每个级别都针对不同的图表生成能力进行专项测试。数据集包含丰富的图表类型和多样的数据格式,从简单的图表复现到复杂的数据转换任务,全面覆盖了实际应用场景。每个任务都配备了完整的评估指标,包括代码执行率、图表质量评估和语义一致性检查,为多模态模型的性能评估提供了多维度的量化标准。
使用方法
使用该数据集时,研究人员需要先配置相应的API密钥和环境变量,然后下载数据集并按照指定的目录结构组织文件。针对不同难度级别,数据集提供了专门的推理脚本,用户可以选择本地加载或在线加载模型权重。评估过程分为四个步骤:首先检查代码执行率,然后进行基础评估、LLM代码评估和LMM图像评估,确保对模型生成结果的全面量化分析。
背景与挑战
背景概述
在数据可视化与多模态人工智能融合发展的背景下,Chart2Code-Benchmark于2025年由CSU-JPG团队提出,旨在系统评估大语言模型在图表生成任务中的能力演进。该数据集通过构建层次化评估框架,聚焦于图表复现、编辑转换及长表格可视化三大核心问题,填补了多模态模型在结构化数据生成领域标准化评估的空白。其创新性层级设计不仅推动了可视化生成技术的精细化发展,更为人机交互与自动化数据分析提供了关键理论基础。
当前挑战
该数据集面临的领域挑战主要体现为多模态模型对复杂图表结构的语义理解偏差,以及长表格数据中信息密度与可视化简洁性的平衡难题。在构建过程中,需克服多层次任务标注的一致性维护、跨模态数据对齐的精度控制,以及生成代码与视觉元素间逻辑关联的验证等关键技术瓶颈。这些挑战共同构成了从数据感知到代码生成的全链路评估壁垒。
常用场景
经典使用场景
在数据可视化研究领域,Chart2Code-Benchmark作为评估多模态模型图表生成能力的标准测试平台,其经典应用场景涵盖三个渐进式挑战层级:基础层级的图表复现任务要求模型根据参考图像和用户查询精确还原可视化图表;中间层级的图表编辑任务涉及复杂的内容修改,包括转换图表类型或增删图表元素;最高层级的长表格转换任务则考验模型将信息密集的结构化数据转化为符合指令的视觉图表。这种分层设计能够系统评估模型在视觉理解、代码生成和逻辑推理方面的综合能力。
实际应用
在现实应用层面,Chart2Code-Benchmark支撑的模型能力可广泛应用于商业智能分析、科研数据呈现和教育资源开发等领域。基于该基准优化的模型能够自动将原始数据转化为专业级可视化图表,显著提升金融报告生成效率;在学术研究场景中,可协助研究人员快速构建论文图表;对于教育行业,则能根据教学需求动态生成定制化统计图表。这种技术突破极大降低了数据可视化的专业门槛,推动了知识传播的民主化进程。
衍生相关工作
该基准已催生系列重要研究成果,包括InternVL、Qwen-VL等主流多模态模型的专项优化版本。相关工作深入探索了视觉语言模型在代码生成任务中的思维链机制,如Qwen3-VL-30B-think模型引入的推理增强策略。同时衍生出MOLMO-7B-D等专注于图表生成的轻量化架构,以及LLaVA-OV-Qwen2系列在开放词汇表场景下的创新应用。这些研究共同构建起从视觉感知到程序合成的完整技术链条,持续推动着多模态人工智能的发展边界。
以上内容由遇见数据集搜集并总结生成



