five

Chart2NCode

收藏
arXiv2026-04-27 更新2026-04-29 收录
下载链接:
https://github.com/Zhihan72/CharLuMA
下载链接
链接失效反馈
官方服务:
资源简介:
Chart2NCode是由新加坡管理大学构建的跨语言图表-代码对齐数据集,包含17.6万组图表图像与Python/R/LaTeX多语言脚本的四元组。该数据集通过自动化元数据提取和模板实例化流程构建,涵盖20种图表类型,平均token长度分别为Python(384.1)、R(591.8)和LaTeX(637.1),并经过渲染验证和人工质量检查。作为首个支持多语言图表代码生成研究的基准数据集,其通过视觉对齐的跨语言脚本监督,旨在提升科学图表的重现性、编辑性和多平台适用性。
提供机构:
新加坡管理大学·计算与信息系统学院
创建时间:
2026-04-27
原始信息汇总

数据集概述

数据集名称

Chart2NCode

所属项目

CharLuMA(论文《Aligned Multi-View Scripts for Universal Chart-to-Code Generation》,已被 ACL 2026 主会接收)

数据集规模

  • 包含 176K 张图表(charts)
  • 每张图表与 Python、R、LaTeX 三种脚本对齐

数据集特点

  • 图表与三种语言编写的脚本对齐,这些脚本渲染出的视觉输出效果等价
  • 基于元数据到模板的流水线(metadata-to-template pipeline) 构建,并经过渲染验证

当前发布资源

  • 自动标注流水线代码(存放于 dataset_construction/ 目录)
  • Chart2NCode 数据集的一个随机子集(存放于 dataset_construction/sample_Chart2NCode/ 目录)
  • 当前发布仅包含面积图(area)、条形图(bar)和箱线图(box)的模板及填充脚本
  • 完整数据集因存储限制和评审期间禁止外部链接,未在此仓库中托管

相关模型

CharLuMA:一种基于 LLaVA 风格多模态大模型(MLLM)的参数高效适配模块。通过语言条件混合低秩子空间增强多模态投影器,使模型在共享图表理解能力的同时,通过轻量级路由实现特定语言的代码生成。

搜集汇总
数据集介绍
main_image_url
构建方式
在数据可视化领域,现有的图表转代码数据集大多局限于Python语言,忽略了不同编程语言之间脚本的视觉语义等价性。为填补这一空白,Chart2NCode数据集应运而生。该数据集通过一个自动化的元数据到模板的流水线构建而成:首先从公开数据源中收集单语言绘图脚本(Python、R和LaTeX),提取语言无关的分层元数据(涵盖图级、轴级和对象级属性),随后通过元数据模式匹配检索对应的语言特定模板,并将结构化元数据注入模板以生成多语言脚本。为确保跨语言一致性,在模板实例化过程中实施了属性映射机制。对于模板匹配失败或执行出错的情况,采用GPT-4o辅助的调试模块进行纠正,最终经过渲染验证和人工质量检查,形成了包含176K组图表图像与对齐的多语言脚本的数据集。
使用方法
Chart2NCode旨在支撑和评估多语言图表转代码模型的开发。使用时,每个数据样本包含一张图表图像及其对应的Python、R和LaTeX三种脚本,研究者可将图像作为输入,选择目标语言(如“用Python生成此图表的代码”),训练模型生成相应语言的代码。数据集支持两种主要使用范式:一是直接的多语言生成任务,模型需根据图像和语言指示输出对应脚本;二是作为微调数据,用于增强多模态大语言模型在图表理解与代码生成上的能力。建议将数据集按官方划分的175K训练样本和1K测试样本使用,后者经过严格质量筛选(所有维度平均分≥4),可用于评估模型的执行率和视觉保真度。评估时采用执行率、DreamSim图像相似度和MLLM-as-Judge评分等指标,全面衡量模型性能。
背景与挑战
背景概述
Chart2NCode 数据集由新加坡管理大学计算与信息系统学院的 Zhihan Zhang 和 Lizi Liao 于 2026 年提出,旨在突破现有图表到代码生成任务的单一编程语言局限。该研究旨在解决静态图表难以复现、编辑与复用的难题,通过构建包含 17.6 万张图表及其在 Python、R 和 LaTeX 三种语言中对齐脚本的大规模数据集,推动多语言、跨语法的通用代码生成技术发展。这一数据集不仅弥补了此前领域对 Python/matplotlib 的过度依赖,也为探究跨语言视觉语义对齐提供了宝贵资源,对科学可视化与自动化代码生成领域产生了深远影响。
当前挑战
该数据集构建与相关研究所面临的核心挑战涵盖两个层面。在领域问题层面,现有图表生成方法普遍局限于 Python 语言,忽略了 R 与 LaTeX 等科研领域广泛使用的绘图工具,限制了实际应用价值;同时,多语言脚本虽表面语法迥异,却共享相同的潜在视觉语义,现有方法难以有效利用这一跨语言对齐的监督信号。在数据集构建层面,自动标注管道需要从单语言脚本中提取语言无关的元数据,并通过模板实例化与属性映射确保跨语言一致性,整个过程须克服模板匹配失败、脚本执行错误及风格映射偏差等困难。此外,还需通过渲染验证与人工质检来保证多语言输出在结构、数据、语义与风格上的高度一致,构建成本高昂且流程复杂。
常用场景
经典使用场景
在科学可视化与自动化文档生成的交叉领域中,Chart2NCode数据集被广泛用于多语言图表脚本的生成任务。研究者可利用该数据集训练模型,将从给定图表图像中提取的视觉语义精准映射为可执行且视觉等价的Python、R或LaTeX绘图代码。该数据集涵盖20种以上的图表子类型,并提供了结构一致的多视图监督信号,成为评估模型跨语言代码生成能力与视觉忠实度的标准基准。
解决学术问题
Chart2NCode填补了现有研究集中于Python单一语言的空白,首次系统性解决了多语言图表生成中的跨语言对齐与监督信号不足问题。通过提供超过17万组图表与Python、R、LaTeX脚本的对应四元组,使学术界能够探索多语言视觉语义对齐、低秩子空间适配以及语言特定路由机制等前沿方向。该数据集促进了可执行脚本生成过程中的视觉忠实度与代码结构一致性研究,成为跨模态分析与代码合成领域的关键资源。
实际应用
在实际应用中,Chart2NCode助力构建跨语言图表复现系统,广泛应用于学术论文编辑、技术文档自动生成以及数据报告的跨平台发布。研究人员与工程师可以借助基于该数据集训练的模型,将静态图表图像自动转化为适应不同出版标准(如LaTeX的TikZ、R的ggplot2或Python的Matplotlib)的可编辑代码,极大提升科学图表的可复现性、版本控制与跨团队协作效率。
数据集最近研究
最新研究方向
Chart2NCode数据集开创性地将图表到代码生成任务从单一的Python语言拓展至多语言场景,构建了包含17.6万组图表与Python、R、LaTeX三种语言脚本配对的视觉对齐数据集。该研究方向聚焦于利用多语言脚本间共享的视觉语义结构,通过跨语言对齐的监督信号提升生成模型的泛化能力与代码可执行性。前沿工作如CharLuMA模型采用语言引导的低秩子空间路由机制,在保持共享图表理解能力的同时实现语言特异性代码生成,有效弥合了不同语言间生成质量的差距。这一方向打破了传统单一语言生成范式的局限,推动了图表生成系统向反映真实软件生态多样性的通用化发展,对促进科学可视化成果的可复现性与跨平台复用具有重要学术价值与实践意义。
相关研究论文
  • 1
    Aligned Multi-View Scripts for Universal Chart-to-Code Generation新加坡管理大学·计算与信息系统学院 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作