ReachQA

github2024-10-25 更新2024-10-26 收录

下载链接：

https://github.com/hewei2001/ReachQA

下载链接

链接失效反馈

官方服务：

资源简介：

ReachQA是一个包含3k个推理密集型图表和20k个Q&A对的数据集，旨在增强模型在图表相关基准上的表现以及在一般数学基准上的多模态推理能力。

ReachQA is a dataset consisting of 3,000 inference-intensive charts and 20,000 Q&A pairs, designed to enhance models' performance on chart-related benchmarks as well as their multimodal reasoning capabilities on general mathematical benchmarks.

创建时间：

2024-10-25

原始信息汇总

ReachQA 数据集概述

数据集获取方式

直接从 HuggingFace 下载：hewei2001/ReachQA。
克隆仓库并生成图表：使用合成代码生成图表，过程约需 3 分钟。

数据集简介

Code-as-Intermediary Translation (CIT)

CIT 是一种成本效益高、效率高且易于扩展的数据合成方法，用于从大型语言模型（LLMs）向多模态大型语言模型（MLLMs）传递视觉推理能力。
通过代码作为中间媒介，将视觉图表表示转换为文本表示，使 LLMs 能够理解跨模态信息。
使用基于文本的合成技术构建图表绘制代码，生成 ReachQA 数据集，包含 3k 个推理密集型图表和 20k 个 Q&A 对，以增强识别和推理能力。

ReachQA 数据集

包含 3k 个推理密集型图表和 20k 个 Q&A 对。
数据集统计信息显示问题和答案的长度（基于 GPT-4o 分词器计算）。

数据集结构

ReachQA ├── assets ├── data │ ├── reachqa_seed │ ├── reachqa_test │ └── reachqa_train ├── scripts │ ├── data │ ├── eval │ ├── filter │ └── train ├── utils │ ├── chart_notes.py │ ├── openai_utils.py │ └── init.py ├── batch_filter_image.py ├── batch_filter_QA.py ├── openai_generate_code.py ├── openai_generate_QA.py ├── openai_llm_evaluation.py ├── swift_infer_dataset.py ├── requirements_data.txt └── README.md

快速开始

获取 ReachQA 数据集： bash cd ReachQA conda activate ReachQA_data python ./data/reachqa_train/execute_code.py --code_dir ./data/reachqa_train/code/ --image_dir ./data/reachqa_train/images/ python ./data/reachqa_test/execute_code.py --code_dir ./data/reachqa_test/code/ --image_dir ./data/reachqa_test/images/
使用 CIT 构建数据： bash cd ReachQA conda activate ReachQA_data bash ./scripts/data/run_openai_generate_code.sh python ./data/reachqa_train/execute_code.py --code_dir ./data/reachqa_train/all_code/ --image_dir ./data/reachqa_train/all_images/ bash ./scripts/filter/run_rating_images.sh python ./data/reachqa_train/filter_rated_image.py --data_dir ./data/reachqa_train/ bash ./scripts/data/run_openai_generate_QA.sh bash ./scripts/filter/run_rating_QA.sh python ./data/reachqa_train/filter_rated_QA.py --data_dir ./data/reachqa_train/
训练 / 推理 / 评估： bash cd ReachQA conda activate ReachQA_train cd ./data/reachqa_train/ python process_to_swift_internvl.py cd ../.. bash ./scripts/train/internvl2_lora.sh bash ./scripts/eval/infer_InternVL2-8B.sh bash ./scripts/eval/run_openai_evaluation.sh

主要结果

在七个基准测试上的评估结果，详细信息见 § 4.1。
展示了注意力可视化的示例，比较了原始模型和微调模型在 ChartQA 数据集上的表现。

联系

如有问题，请联系 whe23@m.fudan.edu.cn。

引用

@misc{he2024distill, title={Distill Visual Chart Reasoning Ability from LLMs to MLLMs}, author={Wei He and Zhiheng Xi and Wanxu Zhao and Xiaoran Fan and Yiwen Ding and Zifei Shan and Tao Gui and Qi Zhang and Xuanjing Huang}, year={2024}, eprint={2410.18798}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.18798}, }

搜集汇总

数据集介绍

构建方式

在构建ReachQA数据集的过程中，研究者提出了一种名为Code-as-Intermediary Translation（CIT）的创新方法。该方法通过代码作为中介，将视觉图表转化为文本表示，从而使大型语言模型（LLMs）能够理解跨模态信息。具体而言，研究者利用基于文本的合成技术生成图表绘制代码，并由此构建了包含3000个推理密集型图表和20000个问答对的ReachQA数据集。这一过程不仅高效且易于扩展，显著提升了模型在图表相关基准测试中的表现，同时也增强了其在一般数学基准测试中的多模态推理能力。

特点

ReachQA数据集的主要特点在于其通过CIT方法生成的数据具有高度的推理密集性和跨模态信息理解能力。该数据集包含了3000个复杂图表和20000个问答对，涵盖了多种图表类型、主题和复杂度级别。此外，ReachQA数据集的设计旨在增强模型的识别和推理能力，使其不仅在图表相关的任务中表现优异，还能在如MathVista等一般数学基准测试中展现出改进的多模态推理能力。

使用方法

使用ReachQA数据集时，用户可以通过两种方式获取数据：直接从HuggingFace Datasets下载，或通过克隆GitHub仓库并使用合成代码生成图表。数据集的安装和使用步骤包括创建虚拟环境、安装必要的依赖包，并通过执行代码生成图表和问答对。此外，用户还可以根据需要对生成的图像和问答对进行过滤和评估。数据集的使用不仅限于训练和评估，还可用于进一步的研究和开发，以提升多模态推理模型的性能。

背景与挑战

背景概述

ReachQA数据集由复旦大学的研究人员于2024年创建，旨在通过Code-as-Intermediary Translation (CIT)方法，将大型语言模型（LLMs）的视觉图表推理能力提炼到多模态语言模型（MLLMs）中。该数据集包含3000个推理密集型图表和20000个问答对，旨在增强模型在图表识别和推理方面的能力。ReachQA不仅在图表相关基准测试中表现优异，还提升了模型在一般数学基准测试中的多模态推理能力，对多模态学习和推理领域具有重要影响。

当前挑战

ReachQA数据集在构建过程中面临多项挑战。首先，如何高效地将视觉图表信息转化为文本表示，以便LLMs能够理解和推理，是一个技术难题。其次，生成大量高质量的图表和问答对，确保数据的多样性和复杂性，也是一项艰巨任务。此外，数据集的扩展性和可重复性问题，以及如何在不同模型和任务中有效应用，也是当前需要解决的关键挑战。

常用场景

经典使用场景

在多模态学习领域，ReachQA数据集以其独特的Code-as-Intermediary Translation (CIT)方法，成为提升模型视觉图表推理能力的重要工具。该数据集通过将视觉图表转化为文本表示，使大型语言模型（LLMs）能够理解和处理跨模态信息。具体而言，ReachQA包含了3000个推理密集型图表和20000个问答对，这些数据不仅用于增强模型对图表的识别能力，还显著提升了其在数学推理等通用基准上的表现。

解决学术问题

ReachQA数据集解决了多模态学习中一个关键的学术问题，即如何有效地将大型语言模型的推理能力迁移到多模态语言模型（MLLMs）中。通过CIT方法，该数据集成功地将视觉图表的复杂信息转化为文本形式，使得模型能够在不依赖视觉输入的情况下进行推理。这不仅提高了模型在图表相关任务上的表现，还为多模态推理研究提供了新的思路和方法。

衍生相关工作

基于ReachQA数据集，一系列相关研究工作得以展开。例如，有研究者利用该数据集开发了新的多模态推理算法，显著提升了模型在复杂图表上的表现。此外，ReachQA还激发了在开源大型语言模型（LLMs）上实现CIT方法的研究，推动了多模态数据生成技术的进步。这些衍生工作不仅扩展了ReachQA的应用范围，也为多模态学习领域的发展提供了新的动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集