RefChartQA

github2025-04-01 更新2025-04-08 收录

下载链接：

https://github.com/moured/RefChartQA

下载链接

链接失效反馈

官方服务：

资源简介：

RefChartQA是一个大规模基准数据集，用于基于图表的视觉问答中的视觉定位。它扩展了ChartQA和TinyChart-PoT数据集，添加了明确的边界框注释，将每个答案链接到图表中的支持视觉元素。RefChartQA包含73,702个标注样本，包括55,789个训练样本、6,223个验证样本和11,690个测试样本。

RefChartQA is a large-scale benchmark dataset for visual grounding in chart-based visual question answering. It extends the ChartQA and TinyChart-PoT datasets by adding explicit bounding box annotations that link each answer to the supporting visual elements within the corresponding chart. RefChartQA contains 73,702 annotated samples, including 55,789 training samples, 6,223 validation samples, and 11,690 test samples.

创建时间：

2025-03-29

原始信息汇总

RefChartQA 数据集概述

数据集简介

RefChartQA 是一个大规模基准数据集，专注于基于图表的视觉问答中的视觉定位任务。该数据集扩展了 ChartQA 和 TinyChart-PoT 数据集，通过添加显式的边界框标注，将每个答案与图表中的支持视觉元素关联起来。

数据集规模

总样本量: 73,702 个标注样本
- 训练集: 55,789 个样本
- 验证集: 6,223 个样本
- 测试集: 11,690 个样本

数据集特点

提供明确的边界框标注，连接答案与图表视觉元素
基于 ChartQA 和 TinyChart-PoT 数据集的扩展

使用方式

环境要求

python pip install datasets pillow

加载数据集

python from datasets import load_dataset

dataset = load_dataset("omoured/RefChartQA")

打印数据集划分和一个示例

print(dataset) print(dataset["train"][0])

引用信息

bibtex @misc{vogel2025refchartqagroundingvisualanswer, title={RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning}, author={Alexander Vogel and Omar Moured and Yufan Chen and Jiaming Zhang and Rainer Stiefelhagen}, year={2025}, eprint={2503.23131}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.23131}, }

搜集汇总

数据集介绍

构建方式

RefChartQA数据集作为图表视觉问答领域的重要基准，其构建过程融合了多源数据整合与精细标注策略。研究团队基于ChartQA和TinyChart-PoT数据集进行扩展，通过人工标注方式为每个答案添加了对应的视觉元素边界框，最终形成包含73,702个样本的大规模数据集。数据划分遵循机器学习常规范式，包含55,789个训练样本、6,223个验证样本和11,690个测试样本，确保模型开发与评估的科学性。

特点

该数据集最显著的特征在于其双重标注体系，不仅包含传统的问题-答案对，还创新性地引入了答案对应图表元素的视觉定位信息。每个样本均标注有精确的边界框坐标，使得模型能够学习答案与图表视觉元素之间的空间对应关系。数据集覆盖多种图表类型和复杂问题形式，73,702个样本的规模为模型训练提供了充分的多样性，而清晰的训练-验证-测试划分则保障了评估的可靠性。

使用方法

使用该数据集需预先配置Python环境并安装datasets和pillow库。通过Hugging Face数据集库可直接加载，调用load_dataset('omoured/RefChartQA')即可获取结构化数据。数据集按标准划分包含train、validation和test三个子集，每个样本均以字典形式存储问题、答案及对应的视觉定位信息。这种简洁的接口设计使得研究者能快速开展图表视觉定位任务的模型训练与评估工作。

背景与挑战

背景概述

RefChartQA数据集由Alexander Vogel、Omar Moured、Yufan Chen、Jiaming Zhang和Rainer Stiefelhagen等研究人员于2025年提出，旨在推动基于图表的视觉问答领域的研究。该数据集扩展了ChartQA和TinyChart-PoT数据集，通过添加显式的边界框标注，将每个答案与图表中的支持视觉元素关联起来。RefChartQA包含73,702个标注样本，涵盖训练、验证和测试集，为视觉定位任务提供了大规模基准。这一数据集的发布为计算机视觉与自然语言处理的交叉研究提供了重要资源，尤其在图表理解和多模态推理方面具有显著影响力。

当前挑战

RefChartQA数据集面临的挑战主要体现在两个方面。在领域问题方面，该数据集旨在解决图表视觉问答中的视觉定位问题，即如何准确地将自然语言问题与图表中的特定视觉元素关联起来。这一任务要求模型具备跨模态理解能力，能够同时处理视觉和文本信息，并建立两者之间的精确对应关系。在构建过程中，研究人员需克服大规模数据标注的复杂性，包括如何高效准确地标注边界框以支持视觉定位任务，以及如何确保标注的一致性和质量。此外，数据集的多样性和覆盖范围也是构建过程中需要平衡的关键因素。

常用场景

经典使用场景

RefChartQA数据集在视觉问答领域具有重要价值，尤其在图表理解任务中表现突出。该数据集通过提供详细的边界框标注，使得模型能够精确定位图表中的关键视觉元素，从而更准确地回答问题。这一特性使其成为评估和提升视觉问答模型性能的理想选择。

解决学术问题

RefChartQA数据集解决了视觉问答领域中的关键问题，即如何将答案与图表中的具体视觉元素关联起来。通过提供大规模标注数据，该数据集为研究视觉推理和图表理解提供了重要支持，推动了相关算法的发展。其意义在于填补了现有数据集的空白，为学术研究提供了更丰富的实验基础。

衍生相关工作

RefChartQA数据集衍生了一系列经典研究工作，特别是在视觉问答和图表理解领域。基于该数据集的研究成果包括多模态模型的设计与优化，以及视觉推理算法的改进。这些工作进一步推动了人工智能在图表分析中的应用，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集