ChartComplete

Name: ChartComplete
Creator: 贝鲁特美国大学
Published: 2026-01-16 19:25:36
License: 暂无描述

arXiv2026-01-16 更新2026-01-20 收录

下载链接：

https://github.com/AI-DSCHubAUB/ChartComplete-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ChartComplete是由贝鲁特美国大学构建的综合性图表数据集，涵盖30种图表类型，旨在解决现有基准数据集图表类型单一的问题。该数据集包含1500张高质量图像，其中63.4%为人工收集，36.6%通过自动化爬取获得，数据来源包括Statista和Our World in Data等权威平台。数据集基于改进的Borkin图表分类法构建，采用半自动化的采集流程，并经过严格的图像质量筛选。其应用领域包括多模态大语言模型的图表理解能力评估，为计算机视觉与自然语言处理的交叉研究提供基准支持。

提供机构：

贝鲁特美国大学

创建时间：

2026-01-15

原始信息汇总

ChartComplete 数据集概述

数据集基本信息

数据集名称：ChartComplete
数据集类型：图像数据集
数据内容：包含30种不同的图表类型
数据规模：每种图表类型包含50张图像
构建依据：基于全面的图表分类法构建
许可协议：采用知识共享署名许可协议（Creative Commons BY，CC BY）

数据集视觉概览

概览图：https://github.com/AI-DSCHubAUB/ChartComplete-Dataset/blob/main/resources/collage.jpg

搜集汇总

数据集介绍

构建方式

在图表理解领域，现有基准数据集往往局限于少数常见图表类型，难以全面评估多模态大语言模型的泛化能力。ChartComplete数据集的构建借鉴了可视化领域的Borkin分类法，并对其进行了适应性调整，引入了堆叠变体与组合图表，最终形成涵盖12个类别、30种图表类型的分类体系。数据采集过程融合了自动化爬取与人工收集两种方式，从Statista和Our World in Data等权威数据平台获取初始图像，并利用Google ViT提取视觉特征，通过FAISS索引进行近邻检索，辅以人工筛选，确保每种图表类型均包含50张高质量图像。整个流程遵循严格的图像质量与内容规范，通过迭代式版本控制与多重质检，保障了数据集的多样性与真实性。

使用方法

ChartComplete数据集主要作为图表分类与理解任务的基准测试资源，为评估多模态大语言模型在广泛图表类型上的视觉识别与推理能力提供了标准化平台。研究人员可直接使用其已分类的图像集合，进行零样本或少样本的图表类型识别、视觉特征提取等任务的性能测评。由于数据集本身不包含问答或摘要等直接的学习信号，其更适用于模型泛化能力的横向对比研究，或作为预训练数据的补充以增强模型对多样化图表结构的认知。社区可在此基础上进一步构建问答对、摘要文本等衍生标注，拓展其在图表问答、自动摘要等下游任务中的应用。数据集以目录结构组织，明确标注了每张图像的采集来源，便于使用者根据需求进行筛选与子集构建。

背景与挑战

背景概述

随着深度学习与计算机视觉技术的飞速发展，图表理解领域正经历着深刻的变革。多模态大语言模型在图表解析任务中展现出卓越的效能与精度，然而现有评估基准多局限于少数常见图表类型，难以全面衡量模型的泛化能力。为填补这一空白，黎巴嫩美国大学的Ahmad Mustapha、Charbel Toumieh与Mariette Awad于2026年提出了ChartComplete数据集。该数据集基于可视化领域的分类学框架，系统收录了三十种图表类型，涵盖从基础柱状图到平行坐标图等复杂变体，旨在为图表问答研究提供更具包容性的评估基准，推动跨模态推理技术的边界拓展。

当前挑战

ChartComplete数据集致力于解决图表问答领域中模型泛化能力不足的核心挑战。现有基准多集中于柱状图、折线图等有限类型，难以反映真实场景中图表的多样性，导致模型在应对罕见图表时性能显著下降。在构建过程中，研究团队面临两大难题：其一，需从异构数据源中筛选符合高质量标准的图表图像，确保视觉清晰度、信息完整性与现实代表性；其二，基于改进的Borkin分类学框架，需通过半自动化采集与人工校验相结合的方式，平衡图表类型的覆盖广度与数据质量，尤其针对缺乏集中来源的特殊图表类型，其收集过程依赖耗时的迭代筛选与人工标注。

常用场景

经典使用场景

在图表理解领域，ChartComplete数据集作为一项基准工具，主要用于评估多模态大语言模型在多样化图表类型上的视觉理解能力。该数据集覆盖了从常见条形图到罕见平行坐标图等三十种图表类型，为研究者提供了丰富的视觉素材，以测试模型在复杂图表分类任务中的泛化性能。通过其基于可视化分类学的结构化设计，ChartComplete能够系统性地检验模型对不同图表视觉特征的捕捉精度，从而推动图表自动识别技术的边界拓展。

解决学术问题

ChartComplete数据集主要解决了现有图表理解基准中图表类型覆盖不足的学术瓶颈。传统数据集如FigureQA或ChartQA仅支持少数常见图表，限制了模型在真实场景中的适用性评估。该数据集通过引入基于Borkin分类学的扩展体系，涵盖了热力图、桑基图、箱线图等多样类型，使得研究者能够更全面地探究模型在跨图表模态下的推理鲁棒性。这一贡献不仅丰富了图表视觉研究的评估维度，也为多模态学习中的领域适应问题提供了关键数据支撑。

实际应用

在实际应用层面，ChartComplete数据集为自动化图表分析系统提供了重要的训练与验证资源。例如，在商业智能领域，该数据集可用于开发能够解析各类统计图表的智能助手，辅助用户从复杂可视化报告中快速提取关键信息。此外，在教育技术场景中，基于该数据集的模型可支持自适应学习平台自动生成图表相关问答，提升数据素养教学的效率。其高质量的真实场景图表图像，进一步确保了这些应用在现实环境中的可靠性与实用性。

数据集最近研究