five

ChartQA

收藏
Hugging Face2025-06-24 更新2025-06-25 收录
下载链接:
https://huggingface.co/datasets/jinaai/ChartQA
下载链接
链接失效反馈
官方服务:
资源简介:
ChartQA数据集是一个专门为ViDoRe基准测试而格式化的子集,包含了从ChartQA数据集中随机抽取的1000个样本。每个样本包括查询、图像、图像文件名以及从图像中提取的文本描述。这个子集是为了重新格式化测试集的字段名,以便于在ViDoRe基准测试中使用。
创建时间:
2025-06-10
原始信息汇总

ChartQA数据集概述

数据集来源

  • 本数据集源自ChartQA数据集,是对测试集进行重新格式化并修改字段名称后的版本,以便用于ViDoRe基准测试。

数据集内容

  • 包含1000个随机抽样的样本(完整数据集可在此处获取)
  • text_description字段包含使用EasyOCR从图像中提取的OCR文本

数据特征

  • 字段结构:
    • query: string类型
    • image: image类型
    • image_filename: string类型
    • text_description: string类型

技术规格

  • 数据分割:仅包含test分割
    • 样本数量:1000
    • 数据大小:43.4MB
    • 下载大小:41.9MB

使用限制

  • 所有数据仅供研究和教育用途
  • 版权归原始作者所有
  • 如涉及知识产权或版权问题,请联系"support-data (at) jina.ai"
搜集汇总
数据集介绍
main_image_url
构建方式
ChartQA数据集源自原始ChartQA数据集的测试分割部分,经过字段名称重构以适应ViDoRe基准测试需求。该数据集采用随机抽样策略,从完整数据集中抽取1000个样本构成子集,确保数据分布的均衡性与代表性。图像中的文本信息通过EasyOCR技术进行光学字符识别提取,并存储于text_description字段,为图表理解任务提供多模态数据支持。
特点
该数据集以图表问答为核心应用场景,其显著特点在于融合视觉图像与文本描述的双模态特征。每个样本包含图表图像文件、对应文件名以及OCR提取的文本描述,形成结构化数据框架。测试分割的精心设计使数据集兼具挑战性与实用性,特别适合评估模型在跨模态推理和视觉语言理解方面的性能。数据来源的多样性与处理过程的标准化,为研究社区提供了可靠的基准测试资源。
使用方法
研究人员可通过加载标准化的图像-文本对数据,开展图表理解与问答系统的开发验证。数据集支持直接接入ViDoRe评估框架,用户可基于query字段构建问答任务,结合image和text_description字段实现多模态特征融合。建议预处理阶段对OCR文本进行语义增强,同时利用图像处理技术提取图表的结构化信息,以充分发挥该数据集在视觉-语言联合建模中的潜在价值。
背景与挑战
背景概述
ChartQA数据集作为视觉文档理解领域的重要资源,由Jina AI团队基于原始ChartQA数据集重构而成,专为ViDoRe基准测试优化设计。该数据集聚焦于图表问答任务,通过整合图像与文本描述数据,旨在推动多模态推理技术的研究。数据集中的图像经过EasyOCR技术处理,提取出结构化文本信息,为研究者提供了丰富的跨模态分析素材。其构建理念源于对现实场景中图表信息解读需求的响应,自发布以来已成为评估模型图表理解能力的重要基准之一。
当前挑战
ChartQA数据集面临的核心挑战体现在两个维度:在领域问题层面,图表问答任务要求模型同时具备视觉元素解析、文本语义理解以及逻辑推理能力,这种多模态融合的复杂性远超传统单模态任务;在构建过程中,原始图表数据的多样性导致OCR文本提取准确率波动,不同图表类型的结构差异也为标注一致性带来困难。数据集的子采样策略虽提升处理效率,但可能损失原始数据分布的完整性,这对模型的泛化性能评估提出更高要求。
常用场景
经典使用场景
在数据可视化与自然语言处理的交叉领域,ChartQA数据集为研究图表理解与问答任务提供了标准化的测试平台。该数据集通过包含图表图像、对应查询问题及OCR提取的文本描述,支持模型在多模态环境下进行端到端的推理能力评估。其经典使用场景集中在验证视觉-语言模型对柱状图、折线图等常见图表类型的数值解读和逻辑推理能力,尤其在需要跨模态对齐的复杂问答任务中表现突出。
解决学术问题
ChartQA有效解决了图表问答领域缺乏高质量基准数据集的痛点,为量化模型在真实场景下的图表理解能力提供客观标准。该数据集通过结构化标注促进了三大研究方向:多模态表征学习中的视觉-文本对齐、复杂语义推理中的数值计算精度提升,以及OCR噪声环境下鲁棒性建模。其构建方法论对后续图表相关数据集的标注范式具有指导意义,推动了文档智能领域的评估体系标准化进程。
衍生相关工作
ChartQA催生了多个突破性研究,如微软提出的ChartT5通过引入图表特定token实现结构化解析,Meta开发的Multi-VLT将视觉语言Transformer扩展至财务图表分析。其衍生工作Pix2Struct首次实现端到端图表重建与问答联合建模,而ChartOCR则专门优化了图表中的小字体文本识别。这些创新均以该数据集作为核心评估基准,推动了文档智能技术向实用化方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作