ChartAB
收藏arXiv2025-11-03 更新2025-11-04 收录
下载链接:
https://hf-mirror.com/datasets/umd-zhou-lab/ChartAlignBench
下载链接
链接失效反馈官方服务:
资源简介:
ChartAB是一个用于评估视觉语言模型(VLMs)在图表接地和多图表密集对齐任务中能力的综合基准。该数据集包含了从ChartX中提取的多种类型的图表,包括商业、工业、生活方式、社会和文化等领域,提供了每个图表的CSV数据和绘图代码。数据集涵盖了9000多个实例,包括简单图表和复杂图表,并提供了多种数据单元和属性的变化,以评估VLMs在不同条件下的接地和对齐能力。
ChartAB is a comprehensive benchmark for evaluating the capabilities of Vision-Language Models (VLMs) in chart grounding and multi-chart dense alignment tasks. This dataset includes various types of charts extracted from ChartX, spanning domains such as business, industry, lifestyle, society and culture, and provides CSV data and plotting code for each chart. Comprising over 9,000 instances ranging from simple to complex charts, the dataset features variations in multiple data units and attributes, which is designed to assess VLMs' grounding and alignment capabilities under diverse conditions.
提供机构:
马里兰大学帕克分校
创建时间:
2025-10-31
搜集汇总
数据集介绍

构建方式
ChartAB基准数据集基于ChartX数据集构建,通过系统化的数据扰动策略生成成对图表。构建过程采用算法化流程,对原始图表的CSV数据表进行可控修改,随机调整1-3个数据单元格的数值,同时保持图表结构的完整性。在视觉属性维度,通过修改绘图脚本中的颜色编码、图例位置和文本样式参数,生成具有细微差异的图表变体。每个图表对均配备精确的标注信息,涵盖数据表格和视觉属性的细粒度差异,确保评估的严谨性和可复现性。
特点
该数据集具备多维度的任务分类体系,涵盖数据对齐、属性对齐和鲁棒性评估三大核心模块。其独特之处在于引入了双阶段评估管道,首阶段专注于单图表的密集 grounding 任务,次阶段进行跨图表的细粒度对齐分析。数据集包含9种图表类型,从基础的柱状图、折线图到复杂的三维图、雷达图,全面覆盖不同复杂度的可视化形式。特别设计的鲁棒性评估模块通过保持数据差异不变、仅改变视觉属性的方式,系统检验模型对样式变化的适应能力。
使用方法
使用该数据集需遵循其设计的双阶段评估流程。首阶段向视觉语言模型输入单张图表图像,要求生成结构化的JSON格式输出,准确提取数据表格或视觉属性信息。次阶段将两图表的grounding结果进行对比,模型需识别并输出差异元素的详细描述。评估过程采用专门设计的度量标准:数据对齐使用键值匹配分数,颜色对齐基于RGB空间距离计算,图例对齐则通过离散化网格的曼哈顿距离评估。这种模块化设计使研究者能够精准诊断模型在图表理解各环节的能力缺陷。
背景与挑战
背景概述
随着多模态大模型的快速发展,图表理解作为数据科学和可视化领域的关键任务日益受到关注。2025年,马里兰大学研究团队推出了ChartAB基准数据集,旨在系统评估视觉语言模型在图表细粒度对齐与密集定位任务中的表现。该数据集聚焦于从图表中提取结构化数据与视觉属性,并支持跨图表的密集对齐分析,为金融、生物等领域的多模态推理提供了重要的评估工具。
当前挑战
ChartAB针对的领域挑战在于解决视觉语言模型在复杂图表结构感知中的细粒度理解不足,包括数据提取不精确、颜色与文本属性识别偏差等问题。构建过程中,需克服图表类型多样性带来的标注复杂性,确保数据扰动与属性修改的精确性,同时设计能够有效评估模型定位与对齐能力的多阶段推理流程。
常用场景
经典使用场景
在数据可视化与多模态推理领域,ChartAB数据集通过构建成对相似图表,系统评估视觉语言模型在细粒度图表理解中的表现。该数据集支持数据提取、视觉元素定位及属性识别等核心任务,涵盖柱状图、折线图、雷达图等九种图表类型,为模型在复杂图表结构下的感知能力提供标准化测试环境。其设计的JSON模板与两阶段推理流程,使得模型能够从单图表信息抽取延伸至多图表对比分析,成为图表理解研究的重要基准。
实际应用
在金融分析、数据科学、生物信息等依赖可视化沟通的领域,ChartAB的实际价值体现在其对模型现实应用场景的紧密贴合。例如在商业报表对比中,模型需精准识别不同颜色编码的数据序列;在科研图表解读中,要求准确提取多轴图表的数值关系。该数据集通过属性扰动与数据修改生成的图表对,模拟了真实场景中图表风格的多样性,为开发具有鲁棒性的图表分析工具提供了关键训练与验证基础。
衍生相关工作
ChartAB的推出催生了一系列围绕图表理解的研究进展。其两阶段推理机制启发了如StructChart的模块化数据提取方法,而基于JSON的结构化输出范式被TinyChart等专用模型借鉴以提升指令遵循能力。在评测体系方面,该数据集与CharXiv的科学图表问答、MultiChartQA的多跳推理任务形成互补,共同构建起覆盖图表感知、对齐与推理的完整评估生态,推动了视觉语言模型在结构化视觉内容理解领域的持续演进。
以上内容由遇见数据集搜集并总结生成



