ChartMimic/ChartMimic

Name: ChartMimic/ChartMimic
Creator: ChartMimic
Published: 2024-06-17 11:01:10
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/ChartMimic/ChartMimic

下载链接

链接失效反馈

官方服务：

资源简介：

ChartMimic数据集旨在评估大型多模态模型（LMMs）的视觉基础代码生成能力。该数据集包含1000个人工策划的（图表、指令、代码）三元组，这些图表来自不同科学领域的论文，涵盖了18种常规类型和4种高级类型，共191个子类别。数据集通过多层次的评估指标自动全面评估生成的代码和渲染的图表，强调评估LMMs在视觉理解、代码生成和跨模态推理方面的能力。

The ChartMimic dataset aims to assess the visually-grounded code generation capabilities of large multimodal models (LMMs). It includes 1000 human-curated (figure, instruction, code) triplets, representing authentic chart use cases from scientific papers across various domains, covering 18 regular types and 4 advanced types, diversifying into 191 subcategories. The dataset proposes multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts, emphasizing the evaluation of LMMs capacity in visual understanding, code generation, and cross-modal reasoning.

提供机构：

ChartMimic

原始信息汇总

数据集概述

数据集信息

许可证: Apache-2.0
特征:
- image1: 图像类型
- image2: 图像类型
配置:
- config_name: chartmimic
- data_files:
  - split: test
  - path: test.parquet
语言: 英语
标签:
- 多模态
- 代码生成
- 大型语言模型
任务类别:
- 图像到文本
- 图像到图像
- 文本生成
大小类别: 1K<n<10K
美观名称: ChartMimic

数据概览

ChartMimic 旨在评估大型多模态模型（LMMs）基于视觉的代码生成能力。该数据集包含 1000 个人工精选的（图表、指令、代码）三元组，代表了科学论文中跨多个领域的真实图表用例。这些图表涵盖 18 种常规类型和 4 种高级类型，分为 191 个子类别。此外，ChartMimic 提出了多级评估指标，以自动和全面地评估输出代码和渲染图表。

数据统计

类型	条形图	折线图	误差条图	热图	箱形图	散点图	直方图	雷达图	3D 图	饼图	误差点图	小提琴图
数量	100	80	30	30	25	25	20	20	15	15	10	10
子类别	16	8	12	4	6	4	3	6	5	8	5	3
代码长度（平均）	689.3	805.7	651.9	664.6	659.9	617.2	507.3	772.2	668.7	385.1	523.7	912.0
代码长度（标准差）	289.0	272.2	146.1	303.0	248.9	287.6	161.2	136.4	168.9	123.1	228.9	298.7
级别数量	53/40/7	74/6/0	17/13/0	0/19/11	15/10/0	20/5/0	13/7/0	13/7/0	2/8/5	10/5/0	7/3/0	4/6/0

类型	面积图	等高线图	密度图	图形	箭头图	树图	组合图	HR图	多差异图	PIP图	总计
数量	5	5	5	5	5	5	30	25	25	10	500
子类别	2	3	4	4	4	4	30	25	25	10	101+(90)
代码长度（平均）	832.8	352.8	431.8	310.8	845.0	302.2	641.9	689.9	788.1	958.9	682.9
代码长度（标准差）	177.5	136.7	71.9	61.7	607.0	34.7	159.0	301.5	331.0	285.9	285.1
级别数量	4/1/0	0/0/5	3/2/0	5/0/0	0/2/3	5/0/0	3/19/8	1/4/20	0/12/13	0/0/10	249/169/82

附加说明: 统计数据来自 ChartMimic。每个组合图、HR图、多差异图和PIP图都是一个独立的子类别。代码长度以令牌为单位，使用 Llama3 令牌器进行测量。在级别数量中，"A/B/C" 表示 "简单/中等/困难" 级别的图表数量。

数据字段

以下是评估数据的一个实例及其字段说明：

字段	描述
Task	"Direct Mimic" 或 "Customized Mimic"
ExampleID	图表类型和数字的组合（例如，bar_1）
Instruction	当前测试示例的文本描述
InputFigure	输入图像的文件名，默认为 "ori_500/ExampleID.png"
InputFigureCode	输入图像的Python代码文件路径，默认为 "ori_500/ExampleID.py"
GroundTruthFigure	真实图像的文件名，默认为 "ori_500/ExampleID.png" 或 "customized_500/ExampleID.png"
GroundTruthFigureCode	真实图像的Python代码文件路径，默认为 "ori_500/ExampleID.py" 或 "customized_500/ExampleID.py"
Difficulty	难度级别，可以是 "easy", "medium", 或 "hard"

搜集汇总

数据集介绍

构建方式

在科学可视化领域，图表作为信息传递的核心载体，其自动生成能力对多模态模型提出了严峻挑战。ChartMimic数据集的构建过程体现了严谨的学术规范，研究团队从物理学、计算机科学、经济学等多个学科的真实学术论文中，系统性地收集了信息密集的视觉图表。通过对这些图表进行人工精心筛选与标注，最终形成了4800个高质量的（图表、指令、代码）三元组。这些数据覆盖了从柱状图、折线图到等高线图、树状图等18种常规类型与4种高级类型，并进一步细分为201个子类别，确保了数据在视觉样式与编码逻辑上的广泛多样性。

使用方法

为有效利用该数据集进行模型评估，研究者需遵循其预设的标准化流程。首先，通过官方提供的下载指令获取完整的评估数据包。在具体评测时，模型将接收一个参考图表图像及对应的文本指令作为输入，其任务是生成能够复现参考图视觉风格的Python matplotlib代码。评估系统随后会执行生成的代码，并将渲染出的新图表与真实标注的基准图表在多个维度上进行自动化比对。该数据集已集成至VLMEvalKit评估工具包，推荐通过该框架调用，以确保评估过程的一致性与可复现性，为衡量模型的跨模态代码生成性能提供可靠基准。

背景与挑战

背景概述

ChartMimic数据集由研究团队于2024年创建，旨在评估大型多模态模型在视觉图表到代码生成任务中的跨模态推理能力。该数据集聚焦于科学文献中广泛使用的信息密集型图表，涵盖物理学、计算机科学、经济学等多个学科领域，包含4800个人工标注的图表、指令与代码三元组。其核心研究问题在于探索模型如何整合视觉理解与代码生成，以精确复现复杂图表的视觉风格与数据表征，从而推动多模态人工智能在科学可视化与自动化报告生成方向的发展。

当前挑战

ChartMimic所应对的领域挑战在于，现有模型在跨模态推理中常难以协调视觉细节与代码逻辑的一致性，导致生成的图表在样式、数据映射或布局上出现偏差。构建过程中的挑战则体现为数据收集与标注的复杂性：需从多样化学术文献中提取具有代表性的图表类型，并确保代码能够准确复现其视觉属性，同时设计多层级评估指标以自动化衡量代码执行结果与原始图表的相似度，这对标注精度与评估体系的鲁棒性提出了较高要求。

常用场景

经典使用场景

在数据可视化与多模态人工智能的交叉领域，ChartMimic数据集以其精心构建的图表-代码对，为评估大型多模态模型的跨模态推理能力提供了经典场景。该数据集通过呈现来自多学科论文的真实图表，并配以生成对应绘图代码的文本指令，模拟了学术研究中常见的图表复现与风格迁移任务。模型需解析图表中的视觉元素，如坐标轴、数据标记与色彩配置，并将其转化为可执行的Python代码，这一过程深刻检验了模型融合视觉理解与程序生成的综合认知水平。

解决学术问题

ChartMimic致力于解决多模态人工智能研究中一个核心挑战：如何量化模型在视觉引导下的代码生成与跨模态对齐能力。传统基准多关注单一模态或简单指令跟随，而该数据集通过引入信息密集的图表和复杂指令，系统评估模型对视觉细节的捕捉、代码逻辑的构建以及风格一致性的保持。其意义在于为社区提供了首个专注于图表到代码生成任务的评估框架，推动了模型在科学可视化、自动报告生成等需要深层推理的应用场景中的能力边界探索。

实际应用

在实际应用层面，ChartMimic所针对的能力可直接赋能科研自动化与数据叙事工具的开发。例如，在学术写作中，研究者可借助具备此类能力的模型，快速将实验数据或文献中的图表转化为可修改、可复现的代码，极大提升分析效率。在商业智能领域，该技术能辅助自动生成符合品牌风格的数据报告，或将手绘草图即时转换为规范图表。这些应用不仅降低了数据可视化的技术门槛，也促进了知识在视觉与代码形态间的无缝流动。

数据集最近研究