ChartAB

github2025-11-03 更新2025-11-04 收录

下载链接：

https://github.com/tianyi-lab/ChartAlignBench

下载链接

链接失效反馈

官方服务：

资源简介：

ChartAB是首个全面评估视觉语言模型在图表上进行密集级别理解的基准，专注于两个核心内容：数据（图表可视化的基础值）和属性（影响图表设计的视觉属性，如颜色、图例位置和文本样式）。该基准包含9,000多个实例，涵盖9种不同的图表类型（条形图、编号条形图、折线图、编号折线图、3D条形图、箱线图、雷达图、玫瑰图和多轴图表），并组织成三个评估子集。数据定位与对齐子集包含数据不同的图表对；属性定位与对齐子集包含属性不同的图表对；鲁棒性子集包含每个实例的5个图表对，其中每对保持相同的数据差异但在属性值（颜色、图例或文本样式）上有所不同。

ChartAB is the first benchmark for comprehensively evaluating visual language models (VLMs) on dense-level chart understanding. It focuses on two core components: data, the fundamental values visualized by charts, and attributes, the visual attributes that impact chart design, such as color, legend position, and text style. This benchmark includes over 9,000 instances spanning nine distinct chart types: bar charts, numbered bar charts, line charts, numbered line charts, 3D bar charts, box plots, radar charts, rose charts, and multi-axis charts, and is organized into three evaluation subsets. The Data Localization and Alignment subset contains chart pairs with disparate data; the Attribute Localization and Alignment subset includes chart pairs with varying attributes; the Robustness subset provides five chart pairs per instance, where each pair maintains identical data variations but differs in attribute values including color, legend, or text style.

创建时间：

2025-10-08

原始信息汇总

ChartAlignBench 数据集概述

数据集基本信息

数据集名称：ChartAlignBench
官方论文：https://arxiv.org/abs/2510.26781
HuggingFace数据集地址：https://huggingface.co/datasets/umd-zhou-lab/ChartAlignBench
数据规模：9,000+ 个实例

核心特点

专注于视觉语言模型在密集图表定位和多图表对齐方面的评估
采用新颖的两阶段评估流程，将任务分解为中间定位和推理
评估数据理解和属性理解能力
涵盖多样化的图表类型和复杂度

数据集构成

评估子集

数据定位与对齐子集：包含数据不同的图表对
属性定位与对齐子集：包含属性不同的图表对
鲁棒性子集：每个实例包含5个图表对，保持相同的数据差异但属性值不同

图表类型

涵盖9种图表类型：柱状图、数值柱状图、折线图、数值折线图、3D柱状图、箱线图、雷达图、玫瑰图和多轴图表

主要发现

模型性能特点

复杂图表上性能下降明显
属性理解能力较弱
两阶段方法优于直接推理
精确定位和对齐与下游QA准确性正相关
规模定律适用于大多数对齐任务

评估任务

数据定位与对齐
属性定位与对齐（颜色、图例、文本样式）
鲁棒性评估（数据对齐对属性变化的鲁棒性）

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，ChartAB数据集通过精心设计的构建流程确立了其科学价值。该数据集包含9,000余个评估实例，涵盖柱状图、折线图、三维图表等九种图表类型，通过系统化构建数据对齐、属性对齐与鲁棒性三大评估子集。每个实例均采用差异对比的设计理念，数据子集聚焦图表间的数值差异，属性子集侧重视觉特征变化，鲁棒性子集则通过固定数据差异与动态属性组合来检验模型稳定性。这种多维度架构为评估视觉语言模型的密集图表理解能力提供了坚实基础。

特点

作为首个专注于密集图表理解的基准数据集，ChartAB展现出鲜明的技术特征。其核心优势在于同时涵盖数据理解与属性感知两大维度，数据维度评估模型对图表数值结构的解析能力，属性维度则检验颜色识别、图例定位与文本样式等视觉特征的感知精度。该数据集特别设计了复杂图表类型评估模块，包括三维图表、雷达图等具有复杂布局的变体，有效揭示了视觉语言模型在应对多层次视觉元素时的性能边界。这种全面性设计为模型能力诊断提供了精准的观测窗口。

使用方法

基于模块化评估框架，ChartAB数据集提供了清晰的使用路径。研究人员可通过官方提供的Jupyter Notebook分模块执行评估任务，涵盖数据对齐、颜色对齐、图例对齐等五个专项评估维度。评估流程采用创新的两阶段推理机制，首先进行中间层级的视觉要素定位，继而开展深度推理分析，这种设计能有效降低模型幻觉现象。实际操作中用户需配置Python3.10环境并安装指定依赖库，随后按单元格顺序执行对应任务的演示笔记本即可完成全流程评估。

背景与挑战

背景概述

随着视觉语言模型在图表理解任务中的广泛应用，评估模型对图表密集元素的理解能力成为关键研究课题。ChartAB基准数据集由UMD Zhou实验室于2024年创建，旨在系统评估视觉语言模型在图表数据与属性层面的密集对齐能力。该数据集涵盖9种图表类型，包含9000余个标注实例，通过构建数据对齐、属性对齐和鲁棒性三大评估子集，为研究社区提供了首个专注于图表密集对齐任务的标准化评估框架。该基准的建立显著推进了图表多模态理解领域的发展，为模型在复杂图表场景下的细粒度推理能力评估奠定了重要基础。

当前挑战

ChartAB基准主要应对两大核心挑战：在领域问题层面，现有视觉语言模型对复杂图表类型的理解存在显著缺陷，特别是在3D图表、雷达图等多轴复杂布局中，模型因组件交互关系复杂而出现性能断崖式下降；在构建过程中，需要精确标注图表数据值与视觉属性的对应关系，同时保持不同图表类型间标注标准的一致性。此外，文本样式识别任务因JSON生成复杂度导致大量异常失败案例，这对标注质量和评估方法的设计提出了极高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，ChartAB数据集通过构建九种图表类型的九千余个实例，为密集图表对齐任务提供了标准化测试平台。其核心应用场景聚焦于多模态模型在数据对齐与属性对齐任务中的性能验证，涵盖从基础柱状图到复杂三维图表的全谱系评估。该数据集采用双阶段评估流程，首阶段完成图表元素的中间定位，次阶段执行语义推理，有效模拟了真实场景下视觉语言协同分析的工作机制。

实际应用

在商业智能与数据分析领域，ChartAB支撑的评估框架可直接应用于自动化报表生成系统，通过验证模型对多类型图表的解析精度，确保数据可视化成果的准确性。金融分析场景中，该数据集训练的模型能够精准识别复杂走势图中的趋势变化，辅助投资决策。教育科技领域则利用其属性对齐能力，开发智能图表教学工具，动态解析学生制作的图表作品并给出改进建议。

衍生相关工作

基于ChartAB的评估范式，学界涌现出多项创新研究。斯坦福团队开发的ChartBERT通过引入拓扑感知预训练任务，显著提升了模型对雷达图等非欧几何图表的理解能力。微软研究院提出的Dual-Stream架构借鉴该数据集的阶段划分思想，分别优化视觉特征提取与语义推理模块。此外，MIT团队构建的ChartQA增强数据集扩展了原始基准的问答维度，将密集对齐能力与多跳推理任务有机结合，推动图表理解向更高层次发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集