ChartBench-E

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/xiaoluo11/ChartBench-E

下载链接

链接失效反馈

官方服务：

资源简介：

ChartBench-E Benchmark 432 是一个用于评估在信息负载增加情况下稳定图表到值读取能力的基准数据集。该数据集包含432个样本，分为18个图表家族，每个家族包含24个样本，并分为三个难度等级（L1、L2、L3，各144个样本）。数据集分为训练集（289个样本）、验证集（50个样本）和测试集（93个样本）。数据内容包括渲染的图表图像、表格优先的真实值CSV文件、图表程序/生成元数据JSON文件以及对象级图表元数据JSON文件。数据集字段包括样本ID、图表ID、图表类型、图表组、图像路径、值、系列数量、点数、难度等级、难度组件、挑战标签、来源类型、布局家族、分割、套件ID、注释、轴比例、X标签、系列标签、候选池、表格路径、程序路径和对象路径。该数据集是为研究评估而组装的合成基准工件，并附有建议的引用和许可证声明。

ChartBench-E Benchmark 432 is a benchmark dataset designed to evaluate the ability to stably read values from charts under increasing information load. The dataset contains 432 samples, divided into 18 chart families with 24 samples each, and further categorized into three difficulty levels (L1, L2, L3, with 144 samples each). The dataset is split into a training set (289 samples), a validation set (50 samples), and a test set (93 samples). The data includes rendered chart images, ground truth CSV files with table-first values, chart program/generation metadata JSON files, and object-level chart metadata JSON files. Dataset fields include sample ID, chart ID, chart type, chart group, image path, values, number of series, number of points, difficulty level, difficulty components, challenge labels, source type, layout family, split, suite ID, notes, axis scales, X labels, series labels, candidate pool, table path, program path, and object path. This dataset is a synthetic benchmark artifact assembled for research evaluation and comes with suggested citations and license statements.

创建时间：

2026-04-25

原始信息汇总

ChartBench-E Benchmark 432 数据集概述

数据集简介

ChartBench-E 是一个用于评估图表到数值稳定读取能力的基准测试数据集，特别是在信息负载增加的情况下。该数据集是论文《ChartBench-E: a benchmark for evaluating stable chart-to-values reading under increasing information load》中使用的冻结版本。

数据集规模与结构

总样本数：432 个
图表类型/家族：18 种
每个图表家族的样本数：24 个
难度等级分布：
- L1（简单）：144 个样本
- L2（中等）：144 个样本
- L3（困难）：144 个样本
数据划分：
- 训练集（train）：289 个样本
- 验证集（val）：50 个样本
- 测试集（test）：93 个样本

数据集内容组成

hf_viewer/{train,validation,test}/：Hugging Face 友好的训练/验证/测试划分视图
metadata/formal_all18_432.jsonl：所有432个样本的标准清单
metadata/splits/{train,val,test}.jsonl：各划分的清单文件
images/：432个基准样本的渲染图表图像
tables/：表格优先的真实值（Ground Truth）CSV文件
programs/：图表程序/生成元数据JSON文件
objects/：对象级图表元数据JSON文件
evaluation/：正式论文工作流程使用的真值文件
docs/chartbench_e_rebuilt_README.md：代码库README快照
docs/chartbench_e_paper.pdf：论文PDF快照

数据字段说明（公开视图）

公开视图的元数据文件（hf_viewer/{train,validation,test}/metadata.jsonl）包含以下字段：

sample_id：样本ID
chart_id：图表ID
chart_type：图表类型
chart_group：图表分组
image_path：图像路径
values：数值
n_series：系列数量
n_points：数据点数量
difficulty_tier：难度等级
difficulty_components：难度组成要素
challenge_tags：挑战标签
source_kind：来源种类
layout_family：布局家族
split：数据划分
suite_id：套件ID
annotation：注释
axis_scale：坐标轴刻度
x_labels：X轴标签
series_labels：系列标签
candidate_pool：候选池
table_path：表格路径
program_path：程序路径
object_path：对象路径

相关资源

代码、提示模板、评估脚本和生成工具：https://github.com/luojueling/ChartBench-E
完整的数据集（7506个样本池）已单独发布，以保持此基准仓库的稳定性和用户友好性

搜集汇总

数据集介绍

构建方式

ChartBench-E数据集旨在评估图表到数值读取任务在信息负载递增情境下的稳健性。该数据集精心构建了一个冻结的432样本基准测试集，覆盖18种图表族，每种图表族包含24个样本。样本依据难度划分为三个等级（L1、L2、L3），各含144个样本，并进一步划分为训练集（289个）、验证集（50个）和测试集（93个）。数据集中包含渲染的图表图像、真实值表格、图表生成程序元数据及对象级元数据，确保评估的全面性和可复现性。

使用方法

使用者可通过Hugging Face的datasets库加载数据集，并利用预定义的训练、验证和测试划分进行模型评估。数据集提供了清晰的图像路径和真实值表格，便于构建端到端的图表数值提取管线。配套的代码仓库（GitHub: luojueling/ChartBench-E）包含了提示模板、评估脚本及生成工具，研究者可直接复现论文中的实验流程。建议引用原始论文以规范学术使用。

背景与挑战

背景概述

ChartBench-E 数据集由 Hui Long、Jueling Luo 等研究人员于2026年创建，旨在系统评估图表到数值（chart-to-values）任务的鲁棒性。随着数据可视化在科学报道与商业决策中的广泛应用，自动化图表数值理解成为自然语言处理与计算机视觉交叉领域的关键挑战。该数据集聚焦于在信息负载递增的条件下，评估模型从图表中稳定读取数值的能力，填补了现有基准在难度梯度与结构化评估上的空白。通过构建18种图表家族、432个样本及三级难度梯度（L1至L3），ChartBench-E 为相关领域提供了标准化测试平台，对推动图表理解模型的泛化性与鲁棒性研究具有重要影响力。

当前挑战

ChartBench-E 主要应对两个层面的挑战。领域问题层面，现有图表数值提取模型在图表类型多样性与信息复杂度（如系列数、数据点密度）变化时，性能显著下降，该数据集通过精控的难度分层来量化这一退化过程。构建过程中，研究人员面临样本语义一致性与难度可重复性的挑战，需确保每个图表家族的24个样本在信息负载上具有递增且可控的差异性，同时避免生成图表中的歧义与噪声；此外，432个冻结样本的元数据注释（如挑战标签、候选池）需要高精度人工审核，以维持基准测试的公平性与可复现性。

常用场景

经典使用场景

ChartBench-E基准数据集专为评估图表数值解读能力而设计，尤其在信息负载递增的情境下考察模型的稳健性。该数据集包含432个精心构建的样本，横跨18种图表家族，每个家族均以24个样本均匀覆盖，并细致划分了L1至L3三个难度层级，分别对应144个样本。数据集的经典使用场景在于，通过逐步增加数据系列数量、数据点密度以及视觉复杂度，系统性地测试从简单图表到高度拥挤图表中数值提取的准确性与稳定性，为视觉语言模型在结构化信息理解领域提供标准化的评测基石。

解决学术问题

在学术研究中，ChartBench-E直面现有图表理解基准测试中信息负载变量控制不足的核心问题。以往数据集常忽略图表复杂度对模型性能的深层影响，导致评估结果难以揭示模型在真实、多变场景下的真实能力。该数据集通过精细化的难度层级设计和多维度挑战标签，使得研究人员能够精准量化模型在递增信息干扰下数值读取的退化规律，从而深入探究模型在视觉拥挤、多序列混淆等复杂条件下的鲁棒性边界，推动图表理解领域从表观准确率评测迈向更具解释性的能力诊断。

实际应用

实际应用中，ChartBench-E所评测的能力直接映射至众多依赖图表数据解读的产业场景。例如，在金融数据分析中，投资报告常包含高度密集的多序列折线图与堆叠柱状图；在生物医学领域，科研论文中的复杂统计图表要求精确获取数值以支持元分析；在商业智能仪表盘中，实时更新的多维度图表需要模型快速且准确地提取关键指标。该数据集为部署在文档智能处理、自动化报告生成及智能问答系统中的视觉语言模型提供了可靠性验证手段，确保其在面对信息过载的图表时仍能保持稳定输出。

数据集最近研究