ToolVQA

Name: ToolVQA
Creator: 北京大学王选计算机研究所
Published: 2025-08-05 18:06:16
License: 暂无描述

arXiv2025-08-05 更新2025-08-07 收录

下载链接：

https://github.com/Fugtemypt123/ToolVQA-release

下载链接

链接失效反馈

官方服务：

资源简介：

ToolVQA 是一个包含 23K 样本的大规模多模态数据集，旨在解决现有数据集在真实世界工具使用场景中的不足。该数据集采用真实世界视觉上下文和具有挑战性的隐式多步推理任务，更好地与现实用户交互场景对齐。数据集涵盖了 10 种多模态工具，跨越 7 个不同领域，平均推理长度为 2.78 步。ToolVQA 的构建过程采用了一种名为 ToolEngine 的数据生成流程，该流程使用图像引导的深度优先搜索（DFS）和基于最长公共子序列（LCS）的示例匹配机制来模拟人类工具使用推理过程。该数据集可用于评估和提升大型基础模型（LFMs）在真实世界任务中的工具使用能力。

提供机构：

北京大学王选计算机研究所

创建时间：

2025-08-05

原始信息汇总

ToolVQA 数据集概述

1. 数据集简介

名称: ToolVQA
规模: 23K 实例（21,105 训练 + 2,550 测试）
特点:
- 面向真实世界的视觉问答（VQA）任务
- 包含外部工具增强的多模态推理
- 涵盖 10 种多模态工具和 7 个任务领域
- 平均推理步长为 2.78 步/实例
数据生成方法: 采用 ToolEngine 流水线，结合深度优先搜索（DFS）和动态上下文示例匹配机制

2. 数据集内容

图像数据:
- 文件: toolvqa_imgs.zip（23,655 张图像）
- 存储路径: datasets/ToolVQA/
标注数据:
- 训练集: raw_train_21105.json（21,105 实例）
- 测试集: raw_test_2550.json（2,550 实例）
数据格式: python { "image_path": "图像路径", "context": [工具调用步骤], "question": "问题", "ori_question": "原始问题", "answer": "答案", "type": "实例类型" }

3. 数据构建与使用

工具部署:
- 依赖框架: Agentlego
- 需配置 API 密钥（OpenAI/Serper/Mathpix）
数据处理:
- 支持固定工具链（build_fix.py）和任意工具链（build_any.py）生成
模型微调:
- 框架: Xtuner
- 数据转换脚本: us2gta.py 和 gta2xtuner.py
- 训练命令示例: xtuner train llava.py --deepspeed deepspeed_zero2

4. 评估方法

依赖框架: Opencompass + Lmdeploy + Agentlego
评估流程:
1. 部署工具服务（端口 16181）
2. 启动模型 API 服务（端口 12580）
3. 执行评估命令: python run.py 配置路径 --max-num-workers 32

5. 下载信息

数据下载地址: https://drive.google.com/drive/folders/1diRjF2jK0aHoAMximnT7jNg4eN96ppCp?usp=sharing

搜集汇总

数据集介绍

构建方式

ToolVQA数据集的构建采用了创新的ToolEngine流程，通过图像引导的深度优先搜索(DFS)算法和基于最长公共子序列(LCS)的示例匹配机制，模拟人类多步推理过程。该流程首先收集真实场景图像和多样化工具集，然后利用先进的大语言模型作为控制器，在每一步动态选择工具并生成参数。为确保数据质量，构建过程融合了人类先验知识，并经过严格的人工验证，最终形成包含23K样本的高质量数据集。

使用方法

该数据集支持三种评估模式：端到端VQA评估(图像+问题→答案)、分步工具调用评估(中间轨迹监督)以及少样本上下文学习。研究人员可基于LLaVA等视觉语言模型进行微调，通过交叉熵损失优化多轮对话中的工具选择、参数预测和答案生成能力。实验表明，经ToolVQA微调的7B模型在分布内测试集和五个分布外基准上均超越GPT-3.5-turbo，验证了其在复杂工具使用场景中的实用价值。

背景与挑战

背景概述

ToolVQA数据集由北京大学王选计算机研究所的尹少峰、雷婷和刘洋等研究人员于2025年8月提出，旨在解决多模态工具增强推理领域的核心问题。该数据集包含23K个样本，覆盖7个领域10种多模态工具，平均推理步长达到2.78步，显著区别于传统基于合成场景的VQA数据集。其创新性体现在采用真实视觉语境和隐式多步推理任务，通过ToolEngine数据生成管道实现图像引导的深度优先搜索与LCS匹配机制，有效模拟人类工具使用逻辑。该工作被收录于计算机人工智能领域顶级会议，对推动基础大模型在真实场景下的工具协作能力具有里程碑意义。

当前挑战

ToolVQA面临双重挑战：在领域问题层面，需解决多模态工具协同中的动态信息整合难题，包括跨模态表征对齐、工具输出噪声过滤及多轮对话状态维护等核心问题；在构建技术层面，突破传统模板化查询生成的局限，通过LCS匹配机制实现推理链的动态构建，同时需平衡自动化生成效率（单样本平均处理耗时3.2秒）与人工标注质量（测试集标注准确率92.4%）的关系。特别值得注意的是，数据集中37.6%的样本涉及工具输出与视觉信息的交叉验证，这对模型的跨模态推理能力提出更高要求。

常用场景

经典使用场景

ToolVQA数据集在视觉问答（VQA）领域中被广泛用于评估和提升大型基础模型（LFMs）在真实世界场景下的多步推理能力。其经典使用场景包括复杂视觉环境下的工具调用与协同，例如通过OCR工具提取图像中的文本信息，再结合计算器工具进行数值推理，最终生成准确的答案。这种多模态工具链的协同使用，使得模型能够处理更为复杂和真实的用户查询。

解决学术问题

ToolVQA解决了现有研究中工具增强型VQA在真实场景中表现不足的问题，特别是针对功能多样的多模态工具和多步推理任务。通过提供包含真实视觉环境和隐式多步推理任务的大规模数据集，ToolVQA填补了合成场景与真实用户需求之间的鸿沟，为研究社区提供了一个更贴近实际的评测基准。其意义在于推动了LFMs在复杂工具使用场景中的能力提升，并为多模态推理研究提供了新的方向。

实际应用

在实际应用中，ToolVQA可广泛应用于智能助手、自动化客服和教育技术等领域。例如，在智能助手中，模型可以利用ToolVQA训练的多步推理能力，通过调用搜索引擎、图像识别和计算工具，为用户提供复杂的问答服务。在教育领域，该数据集支持的模型能够帮助学生解答需要多步推理的视觉问题，如数学题或科学实验分析，从而提升学习效率。

数据集最近研究