ToolVQA

github2025-08-07 更新2025-08-08 收录

下载链接：

https://github.com/Fugtemypt123/ToolVQA-release

下载链接

链接失效反馈

官方服务：

资源简介：

ToolVQA是一个大规模多模态数据集，包含23K实例，旨在填补真实世界工具使用熟练度方面的空白。该数据集不同于以往依赖合成场景和简化查询的数据集，而是以真实世界的视觉上下文和具有挑战性的隐式多步推理任务为特点，更贴近真实用户交互。

ToolVQA is a large-scale multimodal dataset consisting of 23K instances, which aims to fill the gap in real-world tool use proficiency. Unlike prior datasets that rely on synthetic scenarios and simplified queries, this dataset features real-world visual contexts and challenging implicit multi-step reasoning tasks, which better aligns with real-world user interactions.

创建时间：

2025-07-14

原始信息汇总

ToolVQA数据集概述

1. 数据集简介

名称：ToolVQA
目的：解决真实世界视觉问答（VQA）任务中外部工具使用的多步推理问题
规模：23K实例（21,105训练样本 + 2,550测试样本）
特点：
- 真实世界视觉场景
- 具有挑战性的隐式多步推理任务
- 包含10种多模态工具，覆盖7个不同任务领域
- 平均推理步长：2.78步/实例

2. 数据集内容

图像数据：23,655张图像（toolvqa_imgs.zip）
标注数据：
- 训练集：raw_train_21105.json
- 测试集：raw_test_2550.json
数据格式： python { "image_path": "图像路径", "context": [工具使用步骤], "question": "问题", "ori_question": "原始问题", "answer": "答案", "type": "实例类型" }

3. 数据构建方法

工具链：通过ToolEngine数据生成流程构建
关键技术：
- 深度优先搜索（DFS）
- 动态上下文示例匹配机制
工具部署：需配置多种API密钥（OpenAI、Serper、Mathpix等）

4. 模型训练与评估

训练框架：
- Lmdeploy
- Agentlego
- Opencompass
- Xtuner
训练步骤：
1. 数据格式转换（GTA格式→Xtuner格式）
2. 使用LLaVA模型进行微调
3. 模型权重转换（HuggingFace格式）
评估方法：
- 本地API部署
- 多环境评估（需6G内存）

5. 性能表现

微调后的7B LFMs在测试集上表现优异
在多种OOD数据集上超越GPT-3.5-turbo

6. 数据获取

下载地址：https://drive.google.com/drive/folders/1diRjF2jK0aHoAMximnT7jNg4eN96ppCp?usp=sharing

搜集汇总

数据集介绍

构建方式

ToolVQA数据集的构建采用了创新的ToolEngine生成管道，通过深度优先搜索（DFS）算法结合动态上下文示例匹配机制，模拟人类多步骤推理的工具使用过程。研究团队精心设计了23,000个实例，覆盖10种多模态工具和7个任务领域，每个实例平均包含2.78个推理步骤。数据生成过程中特别注重真实视觉场景的还原，采用GPT辅助的问题精炼技术对原始查询进行优化，并通过人工标注确保测试集的冗余率和答案准确性。

特点

该数据集突破了传统VQA数据集的局限，具有三大核心特征：真实场景下的多模态工具交互、隐式多步骤推理任务以及精细的人工标注体系。23K样本量包含21,105个训练实例和2,550个测试实例，每例均包含图像路径、工具调用链、思维过程和标准答案等完整信息。特别设计的四种实例类型（多对象无文本/单对象无文本/对象含文本/无对象含文本）全面覆盖了现实场景中的复杂视觉问答需求。测试集额外标注了工具必要性、问题优化度和答案唯一性等维度，为模型评估提供多维指标。

使用方法

使用该数据集需配置Lmdeploy、Agentlego、Opencompass和Xtuner四个独立环境。数据文件包含图像压缩包和JSON格式标注，需按指定目录结构存放。训练阶段需通过格式转换脚本将原始数据转为GTA和Xtuner适配格式，支持多GPU深度加速训练。评估时需同时启动工具服务API和本地模型API，通过Opencompass框架进行自动化测试。数据集支持两种生成模式：固定工具链的build_fix.py适用于特定任务验证，任意工具链的build_any.py则满足开放域研究需求。模型微调后需转换为HuggingFace格式方可部署应用。

背景与挑战

背景概述

ToolVQA数据集由研究团队于2024年推出，旨在解决多模态工具增强视觉问答（VQA）领域的关键问题。该数据集包含23,000个实例，覆盖10种多模态工具和7个任务领域，平均每个实例涉及2.78步推理过程。与以往依赖合成场景的基准不同，ToolVQA通过真实视觉语境和隐式多步推理任务，更贴近实际用户交互场景。其创新性体现在采用深度优先搜索（DFS）和动态上下文示例匹配机制的数据生成方法ToolEngine，显著提升了大型基础模型在真实工具使用场景中的泛化能力。该数据集已证明可使7B参数模型在多项分布外（OOD）测试中超越GPT-3.5-turbo，为多模态推理系统的开发提供了重要基准。

当前挑战

ToolVQA致力于解决多模态工具增强VQA系统中的核心挑战：真实场景下的复杂推理能力不足。传统方法在功能多样性工具组合和长链条推理任务中表现欠佳，尤其难以处理隐含多步推理的开放域问题。数据构建过程中面临三重挑战：多模态工具协同的流程设计需要精确的时序逻辑控制；真实图像与语义的深度对齐要求细粒度标注；动态上下文示例匹配机制需平衡数据多样性与逻辑连贯性。这些挑战通过创新的ToolEngine管道得到系统性解决，但如何进一步提升工具组合的灵活性和推理步骤的可解释性，仍是未来研究的重点方向。

常用场景

经典使用场景

在视觉问答（VQA）领域，ToolVQA数据集通过整合外部工具与大型基础模型（LFMs），为多模态环境下的复杂推理任务提供了标准化评估平台。其核心价值在于模拟真实场景中用户的多步骤交互行为，例如通过图像描述工具解析画面内容后，结合搜索引擎获取背景知识，最终回答涉及历史、文化或科学知识的复合型问题。该数据集特别适用于测试模型在隐含推理链和跨工具协作方面的能力，为研究社区提供了接近真实用户体验的评估基准。

衍生相关工作

ToolVQA的发布催生了多个重要研究方向：基于ToolEngine数据生成框架的扩展工作GTA实现了更复杂的工具链自动化构建；其动态上下文匹配机制被Adaptive Tool-User等研究改进为分层记忆网络；在评估体系方面，衍生出ToolEval等专注于工具冗余率和必要性的新指标。数据集构建中采用的DFS推理路径生成方法，也为后续Plan-and-Solve类研究提供了基线方案。

数据集最近研究