five

AdaTooler-V-CoT-100k, AdaTooler-V-300k

收藏
github2025-12-19 更新2025-12-20 收录
下载链接:
https://github.com/CYWang735/AdaTooler-V
下载链接
链接失效反馈
官方服务:
资源简介:
为了支持多模态自适应工具使用学习,我们构建了两个大规模数据集用于不同训练阶段:AdaTooler-V-CoT-100k用于SFT冷启动,AdaTooler-V-300k用于强化学习。在SFT阶段,我们利用Qwen2.5-VL-72B-Instruct自动为AdaTooler-V-300k中的所有样本生成Chain-of-Thought (CoT)推理过程,并通过一系列基于规则的过滤程序消除低质量或语义不一致的输出,最终得到高质量语料库AdaTooler-V-CoT-100k。

To support multimodal adaptive tool-use learning, we constructed two large-scale datasets for distinct training phases: AdaTooler-V-CoT-100k is tailored for SFT cold start, while AdaTooler-V-300k is prepared for reinforcement learning. During the SFT phase, we utilized Qwen2.5-VL-72B-Instruct to automatically generate Chain-of-Thought (CoT) reasoning processes for all samples in the AdaTooler-V-300k dataset. Subsequently, we eliminated low-quality or semantically inconsistent outputs through a series of rule-based filtering workflows, ultimately obtaining the high-quality corpus AdaTooler-V-CoT-100k.
创建时间:
2025-12-17
原始信息汇总

AdaTooler-V 数据集概述

数据集基本信息

  • 数据集名称: AdaTooler-V
  • 核心目标: 支持多模态自适应工具使用的学习,训练能够判断视觉问题是否真正需要工具的MLLM(AdaTooler-V)。
  • 主要构成: 包含两个大规模数据集,分别用于不同的训练阶段。

数据集详细构成

1. AdaTooler-V-CoT-100k

  • 用途: 用于监督微调(SFT)阶段的冷启动。
  • 生成方法: 利用 Qwen2.5-VL-72B-Instruct 为 AdaTooler-V-300k 中的所有样本自动生成思维链(CoT)推理过程。
  • 后处理: 经过一系列基于规则的过滤程序,以消除低质量或语义不一致的输出,最终形成一个高保真度的语料库。

2. AdaTooler-V-300k

  • 用途: 用于强化学习(RL)阶段,提供可验证的奖励。
  • 数据模态: 涵盖单图像、多图像和视频数据。

数据集关联资源

  • 论文地址: https://arxiv.org/pdf/2512.16918
  • 模型地址 (AdaTooler-V-7B): https://huggingface.co/ChaoyangWang/AdaTooler-V-7B
  • 模型地址 (AdaTooler-V-SFT): ChaoyangWang/Qwen2.5-VL-7B-CoT-SFT
  • 训练数据地址 (AdaTooler-V-300k): https://huggingface.co/datasets/ChaoyangWang/AdaTooler-V-300k
  • 评估数据地址: ChaoyangWang/AdaTooler-V-eval
  • 冷启动数据地址: ChaoyangWang/AdaTooler-V-CoT-100k

数据集支持的方法与性能

  • 支持算法: AT-GRPO(一种基于样本工具效益分数自适应调整奖励尺度的强化学习算法)。
  • 模型性能: 在十二个基准测试中展现出强大的推理能力。AdaTooler-V-7B 在高分辨率基准V上达到了89.8%的准确率,超过了商业专有模型GPT-4o和Gemini 1.5 Pro。在V上相比基础模型实现了+11.3%的绝对提升,并在通用和高分辨率基准上表现出一致的增益。

数据预处理与使用

  • 冷启动SFT数据预处理脚本: scripts/preprocess_coldstart.py

  • 预处理命令示例:

    python3 scripts/preprocess_coldstart.py --dataset_path ChaoyangWang/AdaTooler-V-CoT-100k --output_dir [YOUR_DATASET_FOLDER]

  • 数据格式配置: 处理后需在LLaMA-Factory的data/dataset_info.json中配置,指定文件路径、格式和列映射。

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型自适应工具调用研究领域,AdaTooler-V数据集的构建体现了严谨的工程化流程。其核心包含两个阶段性的数据集:AdaTooler-V-CoT-100k与AdaTooler-V-300k。首先,研究人员构建了覆盖单图、多图及视频模态的大规模数据集AdaTooler-V-300k,为强化学习阶段提供可验证奖励的样本基础。随后,为支持监督微调阶段的冷启动,他们利用Qwen2.5-VL-72B-Instruct模型为AdaTooler-V-300k中的所有样本自动生成思维链推理过程,并通过一系列基于规则的过滤流程,剔除低质量或语义不一致的输出,最终精炼出高质量、高保真度的AdaTooler-V-CoT-100k语料库。
特点
该数据集在视觉推理任务中展现出鲜明的多模态与自适应特性。其内容全面覆盖了单张图像、多图像序列以及视频数据,为模型提供了跨模态的复杂推理场景。数据集的核心设计理念在于促进模型对工具调用的自适应判断能力,即引导模型仅在工具能带来实质性改进时才进行调用,而非盲目依赖。这种设计通过后续的AT-GRPO强化学习算法得以强化,使得基于该数据集训练的模型在多个基准测试中展现出卓越的泛化能力和稳健的空间推理性能,特别是在高分辨率视觉任务上取得了显著优势。
使用方法
数据集的使用遵循清晰的两阶段训练范式。在冷启动监督微调阶段,研究者推荐使用LLaMA-Factory框架。需通过专用脚本处理并转换AdaTooler-V-CoT-100k数据集格式,配置相应的数据集信息文件后,执行训练指令即可。进入强化学习阶段,则需运行特定的训练脚本,利用AdaTooler-V-300k数据集和AT-GRPO算法进行策略优化。该流程设计支持在配备8张H100或A100(80GB显存)GPU的典型环境中运行,并提供了应对内存不足等常见问题的调整建议。评估阶段同样配有标准化脚本,确保了训练与评估流程的可复现性和便捷性。
背景与挑战
背景概述
AdaTooler-V系列数据集由TIGER-AI实验室的研究团队于2024年构建,旨在推动多模态大语言模型在视觉推理任务中的自适应工具使用能力。该数据集的核心研究问题聚焦于如何使模型能够智能地判断何时需要调用外部工具来解决复杂的图像与视频问题,从而避免不必要的计算开销并提升推理效率。通过引入AT-GRPO强化学习算法与高质量的训练数据,AdaTooler-V不仅在多个基准测试中超越了包括GPT-4o在内的先进模型,还为视觉语言模型的可控工具调用设立了新的研究方向,对促进人工智能在跨模态交互中的实用化发展具有显著影响力。
当前挑战
在视觉推理领域,模型常面临工具调用决策的模糊性挑战,即难以准确区分哪些问题真正需要外部工具辅助,哪些可依靠内部知识直接解决。AdaTooler-V数据集针对此问题,旨在通过数据驱动的方式优化模型的工具使用策略。在构建过程中,研究团队需克服多模态数据对齐的复杂性,确保图像、视频与文本描述间语义一致;同时,生成高质量的思维链标注依赖大规模语言模型的自动化处理,后续需通过严格的规则过滤以剔除低质量或逻辑矛盾的样本,这对数据清洗流程的设计提出了较高要求。
常用场景
经典使用场景
在视觉语言模型领域,AdaTooler-V数据集为自适应工具调用提供了关键训练基础。该数据集通过包含单图、多图和视频样本,支持模型在复杂视觉推理任务中动态判断是否需借助外部工具。其经典使用场景涉及高分辨率图像分析、多图空间关系理解以及视频时序推理,模型能够基于数据中的思维链标注,学习在必要时调用工具以提升答案准确性,避免不必要的计算开销。
衍生相关工作
基于AdaTooler-V数据集,研究者们衍生出了一系列经典工作,如AT-GRPO强化学习算法,该算法通过自适应奖励缩放优化工具调用策略。同时,数据集推动了如V*等高分辨率基准的发展,并为后续多模态工具学习框架提供了训练范式。这些工作共同促进了视觉语言模型在工具协同与推理效率方面的前沿探索。
数据集最近研究
最新研究方向
在视觉-语言多模态大模型领域,工具调用能力正成为提升复杂视觉推理任务性能的关键。AdaTooler-V系列数据集通过引入自适应工具使用机制,旨在解决模型在图像与视频理解中盲目调用外部工具的问题。前沿研究聚焦于结合强化学习算法AT-GRPO,依据样本的工具效益分数动态调整奖励尺度,从而引导模型仅在工具能带来实质性改进时进行调用。这一方向呼应了当前多模态智能体研究中对于高效、精准决策的需求,其构建的链式思维标注数据与可验证奖励数据集,为模型在单图、多图及视频模态下的推理提供了高质量训练基础。该工作不仅在多个基准测试上超越了GPT-4o等商业模型,更推动了视觉推理模型向更高效、更可靠的工具协同范式演进,对构建下一代自适应多模态系统具有重要参考意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作