xiaoluo11/ChartBench-E

Name: xiaoluo11/ChartBench-E
Creator: xiaoluo11
Published: 2026-04-25 16:03:37
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/xiaoluo11/ChartBench-E

下载链接

链接失效反馈

官方服务：

资源简介：

ChartBench-E Benchmark 432数据集是一个用于评估在信息负载增加下稳定图表到值读取能力的基准数据集。该数据集包含432个样本，分为18个图表家族，每个家族24个样本，难度分为三个等级（L1、L2、L3），并分为训练集（289个样本）、验证集（50个样本）和测试集（93个样本）。数据集中包含图像、表格、程序、对象等多种文件类型，以及详细的元数据文件。该数据集旨在使论文可审计和评审可访问。

The ChartBench-E Benchmark 432 dataset is a benchmark for evaluating stable chart-to-values reading under increasing information load. It includes 432 samples, divided into 18 chart families with 24 samples each, and categorized into three difficulty tiers (L1, L2, L3). The dataset is split into training (289 samples), validation (50 samples), and test (93 samples) sets. It contains various file types such as images, tables, programs, objects, and detailed metadata files. This dataset release is intended to make the paper auditable and reviewer-accessible.

提供机构：

xiaoluo11

搜集汇总

数据集介绍

构建方式

ChartBench-E数据集的构建源于对图表数值读取稳定性评估的需求，旨在系统性地探究信息负载递增对模型性能的影响。该数据集精心筛选并冻结了432个样本，覆盖18种图表类型，每种类型包含24个样本，确保结构均衡。样本依据难度划分为L1、L2、L3三个层级，各144个样本，并进一步划分为训练集（289个）、验证集（50个）和测试集（93个）。构建过程中，每个样本均配备了完整的元数据，涵盖样本标识、图表类型、难度等级、数值、标签、注释、坐标轴尺度及挑战标签等关键字段，同时保留了原始本地路径以确保可追溯性。数据来源于一份正式的手稿子集，并附带了图表图像、真值表、生成程序及对象级元数据文件，为复现与评估提供了坚实基础。

使用方法

使用ChartBench-E数据集时，研究者可首先通过Hugging Face Data Studio加载图像与元数据，快速熟悉数据布局。推荐从元数据文件formal_all18_432.jsonl入手，该文件包含了所有样本的核心信息，便于用户按样本标识、图表类型或难度层级进行筛选与抽样。针对模型评估，可依据预设的splits文件夹下的划分文件，将数据灵活分配给训练、验证及测试流程。项目仓库中提供了完整的提示模板、评估脚本与生成工具，用户可直接调用或参照其设计思路进行定制。对于深入分析，可结合表格与程序文件还原图表生成过程，或利用对象级元数据开展细粒度特征研究。该数据集的设计确保了从数据加载到评估输出的全链路可复现性，适合用于对比实验与学术研究。

背景与挑战

背景概述

ChartBench-E数据集由Hui Long、Jueling Luo等研究人员于2026年创建，旨在评估图表到数值读取（chart-to-values reading）在信息负载递增条件下的稳定性。该数据集聚焦于自动化图表理解领域，核心研究问题是：随着图表中信息量的增加，现有模型能否保持稳定且准确的数值提取能力。数据集包含432个样本，涵盖18种图表类型，并依据难度分为L1、L2、L3三个递进层级，每个层级144个样本。通过提供标准化的图像、表格、程序及对象级元数据，ChartBench-E为评价图表理解模型的鲁棒性提供了系统化基准，在可视化与自然语言处理交叉领域具有重要影响力。

当前挑战

ChartBench-E所解决的领域挑战在于，现有图表理解模型在面对信息负载变化时（如大量数据点、多系列或复杂标注）往往性能大幅下降，缺乏对稳定性的系统评估。具体挑战包括：1）构建过程中的难度分级设计，需确保不同信息负载水平（L1至L3）既能反映真实场景又可复现；2）跨18种图表类型的统一标注标准，要求兼顾多样性（如折线图、柱状图、散点图）与结构一致性，避免标注偏差；3）自动生成程序化图表时，需控制变量（如轴刻度、注释密度）以隔离信息负载对模型的影响，同时保证样本的非平凡性，避免简单模式被模型利用。

常用场景

经典使用场景

ChartBench-E作为一项精心构建的基准测试数据集，其核心用途在于系统性地评估图表理解模型在信息负载递增情境下，从图表视觉元素稳定读取数据值的能力。该数据集涵盖18种图表类型，共432个样本，并依据难度划分为L1、L2、L3三个层级，每个层级包含144个样本，为研究者提供了一个标准化、可复现的评估框架，尤其适合用于检验多模态大语言模型在图表数值提取任务中的鲁棒性与精度。

解决学术问题

ChartBench-E直面当前图表理解研究中一个关键但尚未充分探索的学术难题：随着图表信息复杂度（如数据点密度、标签数量、背景干扰）的增加，模型能否保持对数值信息的稳定读取能力。该数据集通过精心设计的三级难度体系，揭示了现有模型在信息负载条件下的性能退化规律，为构建更具泛化性和鲁棒性的图表数值提取算法提供了重要的实验依据，推动了该领域从简单视觉问答向复杂场景理解的范式演进。

实际应用

在实际应用层面，ChartBench-E的评估能力可广泛赋能自动化数据报告解读、科学文献图表信息提取、商业智能看板自动分析、以及教育领域的图表辅助教学系统。例如，在金融行业，基于该基准优化的模型能够更准确地从高密度K线图或饼状图中提取关键数值，辅助投资决策；在科研领域，则有助于从大量论文图表中自动抽提数据，加速元分析过程。这些应用场景均受益于该基准所强调的信息负载稳定性，确保输出可靠性。

数据集最近研究