ARM-Thinker-Data

Name: ARM-Thinker-Data
Creator: InternLM
Published: 2026-02-13 16:52:19
License: 暂无描述

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/internlm/ARM-Thinker-Data

下载链接

链接失效反馈

官方服务：

资源简介：

ARM-Thinker-Data 是一个用于训练 ARM-Thinker（一种基于工具使用和视觉接地的多模态奖励模型）的数据集。该数据集由 Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking 和 GPT-4o 标注，数据文件位于 `qwen/` 目录下。数据集支持多模态任务，包括工具使用、视觉理解和多步推理，涵盖图像裁剪、文档检索、OCR 等多种工具类型。数据分为 SFT（监督微调）和 RL（强化学习）两部分，每个样本通常包含查询、图像、多轮交互轨迹（思考过程、工具调用、观察结果、最终答案）和奖励信号。数据集采用 CC BY-NC 4.0 许可，仅限研究使用。

提供机构：

InternLM

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在构建ARM-Thinker-Data数据集的过程中，研究团队采用了先进的自动化标注策略，以支持智能体多模态奖励模型的训练需求。该数据集通过Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking以及GPT-4o等前沿模型进行标注，确保了标注内容的高质量与可靠性。数据构建遵循“思考-行动-验证”的智能体范式，涵盖了从复杂查询分解、外部工具调用到可验证证据收集的完整轨迹，为模型提供了丰富的多阶段训练样本，包括用于稳定工具使用模式的监督微调数据以及通过可验证奖励优化工具选择的强化学习数据。

特点

ARM-Thinker-Data数据集的核心特征在于其深度融合了智能体决策与多模态理解能力。数据集不仅包含传统的图像与文本对，还完整记录了智能体在推理过程中调用多样化工具（如图像裁剪、多页面文档检索、OCR及网络搜索）的交互轨迹，实现了视觉信息的细粒度接地与文档证据的精准提取。每一数据样本均整合了查询、视觉输入、多轮交互轨迹及可验证的奖励信号，为训练具备主动推理与证据验证能力的多模态奖励模型奠定了坚实基础。

使用方法

使用ARM-Thinker-Data数据集时，研究人员可通过Hugging Face的datasets库便捷加载数据，分别获取监督微调与强化学习所需的JSON格式文件。每个样本通常包含原始查询、图像输入、智能体交互轨迹（含思考过程、工具调用与观测结果）及奖励信号。该数据集专为训练ARM-Thinker模型设计，支持模型在“思考-行动-验证”管道中学习自主调用工具并进行证据验证，具体训练流程可参考其GitHub仓库提供的详细指南。

背景与挑战

背景概述

随着多模态人工智能的快速发展，视觉语言模型在复杂推理任务中面临证据不足与决策透明度低的瓶颈。ARM-Thinker-Data数据集于2025年由InternLM团队创建，旨在支持ARM-Thinker这一代理式多模态奖励模型的训练。该数据集的核心研究问题在于如何通过主动的工具调用与视觉定位，实现基于可验证证据的推理，从而推动多模态智能体从被动响应向主动决策的范式转变。其引入的“思考-行动-验证”管道，为视觉问答、文档理解和指令验证等领域提供了高质量的训练轨迹，显著提升了模型在复杂场景下的可靠性与可解释性。

当前挑战

该数据集致力于解决多模态智能体在复杂推理任务中面临的挑战，即如何超越传统的被动评分机制，实现基于外部工具调用与视觉证据的主动式决策。构建过程中的主要挑战包括：生成高质量、多样化的代理轨迹，确保工具调用（如图像裁剪、多页文档检索）与视觉定位的精确对齐；整合多阶段训练数据（如SFT与RL数据），以平衡工具使用的稳定性与奖励信号的准确性；以及利用先进模型（如Qwen3-VL-235B、GPT-4o）进行标注时，保持推理逻辑的一致性与可验证性，避免噪声引入与偏差累积。

常用场景

经典使用场景

在视觉语言模型与智能体研究领域，ARM-Thinker-Data数据集为训练具备工具调用与视觉推理能力的多模态奖励模型提供了核心支持。其经典使用场景聚焦于构建主动式“思考-行动-验证”的智能体推理管道，模型通过调用图像裁剪、文档检索等外部工具，对复杂多模态查询进行证据驱动的分步决策与验证，从而在开放世界任务中实现精准、可解释的答案生成。

衍生相关工作

该数据集的发布催生了一系列围绕多模态智能体与奖励模型的前沿研究。其核心的“Think–Act–Verify”范式启发了后续工作对工具调用策略、视觉基础机制以及可验证奖励信号设计的深入探索。相关衍生研究多集中于扩展工具集、优化轨迹生成效率、以及将主动推理框架迁移至更广泛的具身智能或机器人任务中，持续推动着多模态智能体向更自主、更可靠的方向演进。

数据集最近研究