ChartQA

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/ChartQA

下载链接

链接失效反馈

官方服务：

资源简介：

ChartQA数据集是一个专门为ViDoRe基准测试而格式化的子集，包含了从ChartQA数据集中随机抽取的1000个样本。每个样本包括查询、图像、图像文件名以及从图像中提取的文本描述。这个子集是为了重新格式化测试集的字段名，以便于在ViDoRe基准测试中使用。

创建时间：

2025-06-10

原始信息汇总

ChartQA数据集概述

数据集来源

本数据集源自ChartQA数据集，是对测试集进行重新格式化并修改字段名称后的版本，以便用于ViDoRe基准测试。

数据集内容

包含1000个随机抽样的样本（完整数据集可在此处获取）
text_description字段包含使用EasyOCR从图像中提取的OCR文本

数据特征

字段结构：
- query: string类型
- image: image类型
- image_filename: string类型
- text_description: string类型

技术规格

数据分割：仅包含test分割
- 样本数量：1000
- 数据大小：43.4MB
- 下载大小：41.9MB

使用限制

所有数据仅供研究和教育用途
版权归原始作者所有
如涉及知识产权或版权问题，请联系"support-data (at) jina.ai"

搜集汇总

数据集介绍

构建方式

ChartQA数据集源自原始ChartQA数据集的测试分割部分，经过字段名称重构以适应ViDoRe基准测试需求。该数据集采用随机抽样策略，从完整数据集中抽取1000个样本构成子集，确保数据分布的均衡性与代表性。图像中的文本信息通过EasyOCR技术进行光学字符识别提取，并存储于text_description字段，为图表理解任务提供多模态数据支持。

特点

该数据集以图表问答为核心应用场景，其显著特点在于融合视觉图像与文本描述的双模态特征。每个样本包含图表图像文件、对应文件名以及OCR提取的文本描述，形成结构化数据框架。测试分割的精心设计使数据集兼具挑战性与实用性，特别适合评估模型在跨模态推理和视觉语言理解方面的性能。数据来源的多样性与处理过程的标准化，为研究社区提供了可靠的基准测试资源。

使用方法

研究人员可通过加载标准化的图像-文本对数据，开展图表理解与问答系统的开发验证。数据集支持直接接入ViDoRe评估框架，用户可基于query字段构建问答任务，结合image和text_description字段实现多模态特征融合。建议预处理阶段对OCR文本进行语义增强，同时利用图像处理技术提取图表的结构化信息，以充分发挥该数据集在视觉-语言联合建模中的潜在价值。

背景与挑战

背景概述

ChartQA数据集作为视觉文档理解领域的重要资源，由Jina AI团队基于原始ChartQA数据集重构而成，专为ViDoRe基准测试优化设计。该数据集聚焦于图表问答任务，通过整合图像与文本描述数据，旨在推动多模态推理技术的研究。数据集中的图像经过EasyOCR技术处理，提取出结构化文本信息，为研究者提供了丰富的跨模态分析素材。其构建理念源于对现实场景中图表信息解读需求的响应，自发布以来已成为评估模型图表理解能力的重要基准之一。

当前挑战

ChartQA数据集面临的核心挑战体现在两个维度：在领域问题层面，图表问答任务要求模型同时具备视觉元素解析、文本语义理解以及逻辑推理能力，这种多模态融合的复杂性远超传统单模态任务；在构建过程中，原始图表数据的多样性导致OCR文本提取准确率波动，不同图表类型的结构差异也为标注一致性带来困难。数据集的子采样策略虽提升处理效率，但可能损失原始数据分布的完整性，这对模型的泛化性能评估提出更高要求。

常用场景

经典使用场景

在数据可视化与自然语言处理的交叉领域，ChartQA数据集为研究图表理解与问答任务提供了标准化的测试平台。该数据集通过包含图表图像、对应查询问题及OCR提取的文本描述，支持模型在多模态环境下进行端到端的推理能力评估。其经典使用场景集中在验证视觉-语言模型对柱状图、折线图等常见图表类型的数值解读和逻辑推理能力，尤其在需要跨模态对齐的复杂问答任务中表现突出。

解决学术问题

ChartQA有效解决了图表问答领域缺乏高质量基准数据集的痛点，为量化模型在真实场景下的图表理解能力提供客观标准。该数据集通过结构化标注促进了三大研究方向：多模态表征学习中的视觉-文本对齐、复杂语义推理中的数值计算精度提升，以及OCR噪声环境下鲁棒性建模。其构建方法论对后续图表相关数据集的标注范式具有指导意义，推动了文档智能领域的评估体系标准化进程。

衍生相关工作

ChartQA催生了多个突破性研究，如微软提出的ChartT5通过引入图表特定token实现结构化解析，Meta开发的Multi-VLT将视觉语言Transformer扩展至财务图表分析。其衍生工作Pix2Struct首次实现端到端图表重建与问答联合建模，而ChartOCR则专门优化了图表中的小字体文本识别。这些创新均以该数据集作为核心评估基准，推动了文档智能技术向实用化方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集