AdaTooler-V-CoT-100k, AdaTooler-V-300k

Name: AdaTooler-V-CoT-100k, AdaTooler-V-300k
Creator: 香港中文大学多媒体实验室, 清华大学, 上海交通大学, 香港中文大学数据库组, 中佛罗里达大学, 深信服, 集美大学
Published: 2025-12-19 02:59:55
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/CYWang735/AdaTooler-V

下载链接

链接失效反馈

官方服务：

资源简介：

AdaTooler-V数据集由香港中文大学等机构联合构建，包含AdaTooler-V-CoT-100k和AdaTooler-V-300k两个子集，分别用于监督微调和强化学习训练。数据集涵盖单图像、多图像和视频三种模态，包含数学推理、视觉计数、逻辑推理等多样化任务，总规模达40万条样本。数据通过多轮工具交互轨迹和任务特定标注构建，旨在解决多模态大语言模型在视觉推理中盲目调用工具导致的性能下降问题，适用于自适应工具调用的算法研发与评估。

AdaTooler-V dataset is jointly constructed by The Chinese University of Hong Kong and other institutions. It includes two subsets: AdaTooler-V-CoT-100k and AdaTooler-V-300k, which are respectively used for supervised fine-tuning and reinforcement learning training. The dataset covers three modalities: single image, multi-image and video, and contains diverse tasks such as mathematical reasoning, visual counting and logical reasoning, with a total of 400,000 sample entries. The data is built via multi-turn tool interaction trajectories and task-specific annotations, aiming to address the performance degradation problem of multimodal large language models (LLMs) caused by blind tool invocation during visual reasoning, and is suitable for algorithm research, development and evaluation of adaptive tool calling.

提供机构：

香港中文大学多媒体实验室, 清华大学, 上海交通大学, 香港中文大学数据库组, 中佛罗里达大学, 深信服, 集美大学

创建时间：

2025-12-19

原始信息汇总

AdaTooler-V 数据集概述

数据集基本信息

数据集名称: AdaTooler-V
主要构成: 包含两个大规模数据集，用于支持自适应工具使用的训练。
- AdaTooler-V-CoT-100k: 用于监督微调（SFT）冷启动阶段。
- AdaTooler-V-300k: 用于强化学习（RL）阶段，包含可验证的奖励。
数据模态: 涵盖单图像、多图像和视频数据。
公开状态: 训练数据与评估数据计划发布，具体参见TODO列表。

数据集构建方法

AdaTooler-V-CoT-100k生成: 利用Qwen2.5-VL-72B-Instruct模型为AdaTooler-V-300k中的所有样本自动生成思维链（CoT）推理过程。随后通过一系列基于规则的过滤程序，剔除低质量或语义不一致的输出，从而得到高质量语料库。

数据集用途与目标

核心目标: 支持跨多模态的自适应工具使用学习。
训练阶段:
1. SFT冷启动阶段: 使用AdaTooler-V-CoT-100k数据集进行模型初始化。
2. 强化学习阶段: 使用AdaTooler-V-300k数据集进行策略优化，该阶段采用了AT-GRPO强化学习算法，能根据每个样本的“工具效益分数”自适应调整奖励尺度，鼓励模型仅在工具能带来真正改进时调用。

相关资源链接

论文: https://arxiv.org/pdf/2512.16918
7B模型: https://huggingface.co/ChaoyangWang/AdaTooler-V-7B
SFT模型: ChaoyangWang/Qwen2.5-VL-7B-CoT-SFT
训练数据（300k）: https://huggingface.co/datasets/ChaoyangWang/AdaTooler-V-300k
评估数据: ChaoyangWang/AdaTooler-V-eval
冷启动数据（100k）: ChaoyangWang/AdaTooler-V-CoT-100k

搜集汇总

数据集介绍

构建方式

在视觉推理领域，为支持自适应工具调用模型的训练，该数据集通过精心策划与自动化标注流程构建。首先，从多个公开来源收集涵盖单图像、多图像及视频模态的多样化视觉推理任务样本，包括数学、空间逻辑、知识问答等，确保数据在领域与难度上的广泛覆盖。随后，利用Qwen2.5-VL-72B-Instruct模型为所有样本自动生成思维链（CoT）标注，形成AdaTooler-V-CoT-100k数据集，用于监督微调的冷启动。同时，通过计算每个样本的工具效益分数（ΔS），量化工具使用带来的性能增益，并基于此构建包含可验证奖励的AdaTooler-V-300k数据集，以支持强化学习阶段的训练。

使用方法

该数据集主要用于训练具备自适应工具调用能力的多模态大语言模型。在训练流程中，首先使用AdaTooler-V-CoT-100k数据集对基础模型进行监督微调，使其初步掌握多轮工具交互的推理模式与行为先验。随后，结合AdaTooler-V-300k数据集与提出的AT-GRPO强化学习算法进行训练；该算法依据样本的工具效益分数动态调整奖励尺度，激励模型仅在工具能带来真实性能提升时调用工具，而对冗余调用进行惩罚。通过这种两阶段训练框架，模型能够自主学会在文本链式思维与多模态交错思维之间做出自适应选择，从而在提升多种视觉推理任务性能的同时，显著降低推理成本。

背景与挑战

背景概述

随着多模态大语言模型在视觉推理任务中的广泛应用，融合视觉工具的多模态交错思维链范式逐渐成为提升模型性能的关键路径。然而，现有开源模型常表现出盲目调用视觉工具的倾向，即便在无需工具辅助的情况下仍频繁触发交互，这不仅显著增加了推理开销，还可能因过度思考而损害模型性能。为应对这一挑战，香港中文大学多媒体实验室等机构的研究团队于2025年提出了AdaTooler-V模型及其配套数据集AdaTooler-V-CoT-100k与AdaTooler-V-300k。该系列数据集旨在支持自适应工具调用能力的训练，通过引入工具效益分数量化视觉工具的真实增益，并采用强化学习算法动态调整奖励机制，从而引导模型仅在工具能带来实质性改进时进行调用。这一工作为多模态推理领域提供了高质量的训练资源与创新的方法框架，推动了视觉推理模型在效率与精度上的协同优化。

当前挑战

AdaTooler-V数据集致力于解决多模态大语言模型在视觉推理中自适应工具调用的核心问题，其面临的挑战主要体现在两个方面。在领域问题层面，视觉推理任务需模型精准判断何时需借助外部工具（如裁剪、帧提取）以捕捉细粒度视觉信息，而何时仅通过文本思维链即可高效求解，避免因盲目调用导致的推理路径偏离与计算资源浪费。在构建过程中，数据集的创建需克服多模态数据对齐、高质量思维链标注以及工具效益分数可靠度量等难题。具体而言，需从多样化的公开基准中筛选并平衡涵盖单图像、多图像及视频的样本，确保覆盖数学、空间理解、逻辑推理等多种任务类型；同时，通过自动化标注与规则过滤获取可靠的链式推理轨迹，并设计基于工具效益分数的奖励函数以引导模型学习自适应调用策略，这对数据质量与算法设计均提出了较高要求。

常用场景

经典使用场景

在视觉推理领域，AdaTooler-V数据集为多模态大语言模型提供了自适应工具调用的训练基础。该数据集覆盖单图像、多图像及视频模态，通过精心设计的工具效益评分机制，引导模型在推理过程中动态判断是否调用视觉工具。其经典使用场景体现在模型面对复杂视觉问题时，能够自主选择纯文本链式思考或多模态交错推理路径，例如在高分辨率图像细节识别任务中，模型通过自适应裁剪工具聚焦关键区域，而在多图像时钟时间差计算等逻辑任务中则直接采用文本推理，从而在保证精度的同时显著降低计算开销。

解决学术问题

该数据集有效解决了多模态推理中盲目工具调用引发的学术难题。传统模型常无视问题本质频繁调用视觉工具，导致推理轨迹冗余、模型性能下降及计算成本攀升。AdaTooler-V通过引入工具效益评分与自适应奖励机制，使模型能够区分工具有益与无益样本，仅在工具带来实质性能提升时进行调用。这一机制不仅缓解了过度思考现象，还增强了模型对原始视觉线索的依赖，为多模态链式思考范式提供了可验证的优化路径，推动了自适应推理策略的理论发展。

实际应用

在实际应用层面，AdaTooler-V数据集支撑的模型已展现出卓越的跨领域泛化能力。在医疗影像分析、自动驾驶环境感知、工业质检等需要精细视觉理解的场景中，模型能够自适应地调用放大、轨迹绘制等工具，精准提取关键特征。同时，在视频内容理解、新闻片段时序推理等动态任务中，模型通过帧提取与视频剪辑工具高效捕捉时空信息。这种按需调用工具的机制大幅提升了推理效率，为嵌入式设备与边缘计算环境中的轻量化多模态应用提供了可行方案。

数据集最近研究