ReachQA

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hewei2001/ReachQA

下载链接

链接失效反馈

官方服务：

资源简介：

ReachQA数据集是一个多模态指令数据集，主要通过大型语言模型（LLMs）合成。该数据集包含3,249个推理密集型图表和20,000个Q&A对，旨在增强识别和推理能力。数据集分为训练集和测试集，训练集包含19,963个示例，测试集包含2,000个示例。数据集的特征包括图像、图表类型、Q&A类型、问题和答案。实验表明，在ReachQA上微调的模型在图表相关基准测试和其他多模态推理任务中表现出色。

创建时间：

2024-10-27

原始信息汇总

ReachQA: 推理密集型图表问答数据集

数据集概述

ReachQA是一个多模态指令数据集，主要通过大型语言模型（LLMs）合成。训练集包含3,000个推理密集型图表和20,000个问答对，旨在增强识别和推理能力。此外，提供了一个手动策划的测试集来评估这些能力。

数据集特征

image: 图表图像
chart_type: 图表类型
qa_type: 问答类型
question: 问题
answer: 答案

数据集划分

train: 包含19,963个样本，大小为4,035,840,619.625字节
test: 包含2,000个样本，大小为480,179,508字节

数据集统计

统计项	训练集	测试集
总图表数	3,249	500
- # 图表类型	10 / 32	10 / 32
- # 叠加图	1,030	220
- # 多图	593	251
- 平均尺寸 (px)	2480×1571	2798×1601
唯一问题数	19,963	2,000
- # 每图识别问题数	2.53	2
- # 每图推理问题数	3.62	2
平均长度
- 平均识别问题长度	22.1	21.0
- 平均识别答案长度	38.3	7.0
- 平均推理问题长度	38.2	35.4
- 平均推理答案长度	68.4	24.9

数据格式预览

instruction_data_20k.json json [ { "data_id": "reachqa-train-00001", "plot_id": "reachqa-train-plot-00001", "image": "images/00001.jpg", "code": "code/00001.py", "plot_level": "Easy", "plot_model": "gpt-4o-2024-08-06", "major_chart_type": "Line Charts", "minor_chart_type": "line chart", "qa_type": "Reasoning", "qa_model": "gpt-4o-2024-08-06", "question": "Based on the observed trends in ocean current intensities over the decades, determine in which decade two of the currents have exactly the same intensity.", "answer": "Examine the data for ocean current intensities over each decade. In 1980, the Kuroshio Current and Antarctic Circumpolar Current both have an intensity of 22 units. Therefore, the decade when these two currents have exactly the same intensity is 1980." }, ... ]

plot_info.jsonl json {"id": "reachqa-train-plot-00001", "code": "code/00001.py", "image": "images/00001.jpg", "level": "Easy", "plot_model": "gpt-4o-2024-08-06", "major_chart_type": "Line Charts", "minor_chart_type": "line chart"}

数据集加载

使用Hugging Face加载

python from datasets import load_dataset

从网络加载数据

squad = load_dataset(hewei2001/ReachQA)

print(squad)

本地加载`.parquet`文件

python from datasets import load_dataset import os

假设parquet文件存储在本地路径 /path/to/local/data/

目录结构:

/path/to/local/data/

├── test-00000-of-00001.parquet

├── train-00000-of-00009.parquet

├── train-00001-of-00009.parquet

...

加载本地Parquet文件

data_files = { "train": [f"/path/to/local/data/train-{i:05d}-of-00009.parquet" for i in range(9)], "test": ["/path/to/local/data/test-00000-of-00001.parquet"] }

使用load_dataset加载本地parquet文件

dataset = load_dataset("parquet", data_files=data_files)

print(dataset)

数据集生成

bash cd ReachQA conda activate ReachQA_data

python ./data/reachqa_train/execute_code.py --code_dir ./data/reachqa_train/code/ --image_dir ./data/reachqa_train/images/

python ./data/reachqa_test/execute_code.py --code_dir ./data/reachqa_test/code/ --image_dir ./data/reachqa_test/images/

联系信息

如有任何问题，请联系 whe23@m.fudan.edu.cn。

引用

如果本数据集对您的研究有帮助，请引用我们的论文：

@article{he2024distill, title={Distill Visual Chart Reasoning Ability from LLMs to MLLMs}, author={He, Wei and Xi, Zhiheng and Zhao, Wanxu and Fan, Xiaoran and Ding, Yiwen and Shan, Zifei and Gui, Tao and Zhang, Qi and Huang, Xuan-Jing}, journal={arXiv preprint arXiv:2410.18798}, year={2024} }

搜集汇总

数据集介绍

构建方式

ReachQA数据集的构建主要依赖于大规模语言模型（LLMs）的合成能力。该数据集包含3,249张推理密集型图表和20,000个问答对，旨在提升模型的识别与推理能力。训练集通过LLMs生成，而测试集则经过人工筛选，以确保数据的准确性和多样性。数据集中的图表涵盖了10种主要类型和32种次要类型，并包含多种复杂度的图表，如叠加图和多图组合。

特点

ReachQA数据集的特点在于其多模态性质，结合了图像和文本数据，专注于图表的推理任务。数据集中的问答对分为识别类和推理类，分别用于测试模型的基本识别能力和复杂推理能力。此外，数据集的图表类型多样，涵盖了从简单到复杂的多种图表形式，且每个图表都配有详细的代码和图像信息，便于模型进行多模态学习。

使用方法

ReachQA数据集可以通过Hugging Face平台直接加载，或通过下载本地的Parquet文件进行使用。用户可以使用`load_dataset`函数从互联网加载数据，或指定本地路径加载预下载的文件。此外，数据集还提供了生成图像目录的脚本，用户可以通过执行代码生成相应的图像文件。该数据集适用于多模态模型的训练与评估，特别是在图表推理任务中表现出色。

背景与挑战

背景概述

ReachQA数据集由复旦大学的研究团队于2024年提出，旨在通过多模态指令数据集提升模型在图表推理任务中的表现。该数据集主要利用大语言模型（LLMs）生成，包含3,249张图表和22,000个问答对，涵盖10种图表类型。其核心研究问题在于如何从LLMs中提取视觉图表推理能力，并将其迁移到多模态大模型（MLLMs）中。ReachQA的提出不仅推动了图表理解领域的发展，还在多模态推理任务中展现了良好的泛化能力，显著提升了模型在ChartQA、ChartBench等基准测试中的表现。

当前挑战

ReachQA数据集在解决图表推理问题时面临多重挑战。首先，图表类型多样且复杂，模型需要具备强大的视觉识别和推理能力才能准确回答问题。其次，数据集的构建依赖于LLMs生成的合成数据，可能存在不准确或偏差，影响模型的训练效果。此外，尽管提供了手动筛选的测试集，但如何确保训练数据的质量和多样性仍是一个亟待解决的问题。最后，如何将ReachQA与其他多模态数据集有效结合，以进一步提升模型的泛化能力，也是未来研究的重要方向。

常用场景

经典使用场景

ReachQA数据集在图表理解和推理任务中展现了其独特价值。通过结合图像和文本的多模态数据，该数据集被广泛应用于训练和评估多模态大语言模型（MLLMs）。其经典使用场景包括图表问答（Chart Q&A）任务，模型需要从复杂的图表中提取信息并进行推理，以回答用户提出的问题。这种任务不仅要求模型具备图像识别能力，还需要其具备逻辑推理和数据分析能力。

解决学术问题

ReachQA数据集有效解决了多模态模型在图表理解和推理任务中的性能瓶颈问题。通过提供大量合成的图表和问答对，该数据集帮助模型在图表相关的基准测试（如ChartQA、ChartBench等）中取得了显著提升。此外，ReachQA还增强了模型在其他多模态推理任务（如MathVista、MATH-Vision）中的泛化能力，推动了多模态模型在复杂推理任务中的应用研究。

衍生相关工作

ReachQA数据集衍生了一系列相关研究工作，特别是在多模态模型训练和评估领域。基于该数据集的研究成果，许多学者提出了新的模型架构和训练策略，以进一步提升模型在图表理解和推理任务中的表现。此外，ReachQA还激发了关于多模态数据合成和模型泛化能力的研究，为多模态人工智能的发展提供了新的思路和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集