five

ARM-Thinker-Data

收藏
Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/internlm/ARM-Thinker-Data
下载链接
链接失效反馈
官方服务:
资源简介:
ARM-Thinker-Data 是一个用于训练 ARM-Thinker(一种基于工具使用和视觉接地的多模态奖励模型)的数据集。该数据集由 Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking 和 GPT-4o 标注,数据文件位于 `qwen/` 目录下。数据集支持多模态任务,包括工具使用、视觉理解和多步推理,涵盖图像裁剪、文档检索、OCR 等多种工具类型。数据分为 SFT(监督微调)和 RL(强化学习)两部分,每个样本通常包含查询、图像、多轮交互轨迹(思考过程、工具调用、观察结果、最终答案)和奖励信号。数据集采用 CC BY-NC 4.0 许可,仅限研究使用。
提供机构:
InternLM
创建时间:
2026-02-13
搜集汇总
数据集介绍
main_image_url
构建方式
在构建ARM-Thinker-Data数据集的过程中,研究团队采用了先进的自动化标注策略,以支持智能体多模态奖励模型的训练需求。该数据集通过Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking以及GPT-4o等前沿模型进行标注,确保了标注内容的高质量与可靠性。数据构建遵循“思考-行动-验证”的智能体范式,涵盖了从复杂查询分解、外部工具调用到可验证证据收集的完整轨迹,为模型提供了丰富的多阶段训练样本,包括用于稳定工具使用模式的监督微调数据以及通过可验证奖励优化工具选择的强化学习数据。
特点
ARM-Thinker-Data数据集的核心特征在于其深度融合了智能体决策与多模态理解能力。数据集不仅包含传统的图像与文本对,还完整记录了智能体在推理过程中调用多样化工具(如图像裁剪、多页面文档检索、OCR及网络搜索)的交互轨迹,实现了视觉信息的细粒度接地与文档证据的精准提取。每一数据样本均整合了查询、视觉输入、多轮交互轨迹及可验证的奖励信号,为训练具备主动推理与证据验证能力的多模态奖励模型奠定了坚实基础。
使用方法
使用ARM-Thinker-Data数据集时,研究人员可通过Hugging Face的datasets库便捷加载数据,分别获取监督微调与强化学习所需的JSON格式文件。每个样本通常包含原始查询、图像输入、智能体交互轨迹(含思考过程、工具调用与观测结果)及奖励信号。该数据集专为训练ARM-Thinker模型设计,支持模型在“思考-行动-验证”管道中学习自主调用工具并进行证据验证,具体训练流程可参考其GitHub仓库提供的详细指南。
背景与挑战
背景概述
随着多模态人工智能的快速发展,视觉语言模型在复杂推理任务中面临证据不足与决策透明度低的瓶颈。ARM-Thinker-Data数据集于2025年由InternLM团队创建,旨在支持ARM-Thinker这一代理式多模态奖励模型的训练。该数据集的核心研究问题在于如何通过主动的工具调用与视觉定位,实现基于可验证证据的推理,从而推动多模态智能体从被动响应向主动决策的范式转变。其引入的“思考-行动-验证”管道,为视觉问答、文档理解和指令验证等领域提供了高质量的训练轨迹,显著提升了模型在复杂场景下的可靠性与可解释性。
当前挑战
该数据集致力于解决多模态智能体在复杂推理任务中面临的挑战,即如何超越传统的被动评分机制,实现基于外部工具调用与视觉证据的主动式决策。构建过程中的主要挑战包括:生成高质量、多样化的代理轨迹,确保工具调用(如图像裁剪、多页文档检索)与视觉定位的精确对齐;整合多阶段训练数据(如SFT与RL数据),以平衡工具使用的稳定性与奖励信号的准确性;以及利用先进模型(如Qwen3-VL-235B、GPT-4o)进行标注时,保持推理逻辑的一致性与可验证性,避免噪声引入与偏差累积。
常用场景
经典使用场景
在视觉语言模型与智能体研究领域,ARM-Thinker-Data数据集为训练具备工具调用与视觉推理能力的多模态奖励模型提供了核心支持。其经典使用场景聚焦于构建主动式“思考-行动-验证”的智能体推理管道,模型通过调用图像裁剪、文档检索等外部工具,对复杂多模态查询进行证据驱动的分步决策与验证,从而在开放世界任务中实现精准、可解释的答案生成。
衍生相关工作
该数据集的发布催生了一系列围绕多模态智能体与奖励模型的前沿研究。其核心的“Think–Act–Verify”范式启发了后续工作对工具调用策略、视觉基础机制以及可验证奖励信号设计的深入探索。相关衍生研究多集中于扩展工具集、优化轨迹生成效率、以及将主动推理框架迁移至更广泛的具身智能或机器人任务中,持续推动着多模态智能体向更自主、更可靠的方向演进。
数据集最近研究
最新研究方向
在视觉-语言模型与具身智能的交叉领域,ARM-Thinker-Data数据集正推动着多模态智能体研究范式的深刻变革。该数据集所支撑的“思考-行动-验证”主动推理框架,将传统被动评分模型转变为能够自主调用外部工具(如图像裁剪、多页文档检索)以获取可验证证据的智能体。这一方向紧密关联于当前学术界对模型可解释性与决策可靠性的迫切需求,特别是在自动驾驶、医疗影像分析等高风险应用中,确保模型判断基于具体视觉证据而非黑箱推理变得至关重要。数据集提供的多阶段训练轨迹(包括监督微调与强化学习数据),为开发具备复杂工具使用能力、能进行细粒度视觉接地推理的通用智能体奠定了高质量数据基础,预示着多模态模型从感知理解向主动决策与自我验证的范式跃迁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作