M-TRACE

Name: M-TRACE
Creator: Mohamed bin Zayed University of Artificial Intelligence (MBZUAI),United Arab Emirates
Published: 2025-10-10 01:59:54
License: 暂无描述

arXiv2025-10-10 更新2025-10-11 收录

下载链接：

https://arxiv.org/abs/2510.08567v1

下载链接

链接失效反馈

官方服务：

资源简介：

M-TRACE 是一个大规模的多模态任务数据集，包含 28.5K 个多模态任务和 177K 个经过验证的步骤级工具使用轨迹，为模仿学习提供了广泛覆盖的工具推理技能。数据集涵盖了多种文件类型、知识领域、工具使用和步骤复杂性，反映了现实世界中的问题解决情况。

M-TRACE is a large-scale multimodal task dataset consisting of 28.5K multimodal tasks and 177K validated step-level tool usage trajectories, which offers comprehensively covered tool reasoning skills for imitation learning. The dataset spans diverse file types, knowledge domains, tool usage scenarios and step complexities, reflecting real-world problem-solving scenarios.

提供机构：

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI),United Arab Emirates

创建时间：

2025-10-10

原始信息汇总

MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning

基本信息

标题: MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
arXiv ID: arXiv:2510.08567v1
提交日期: 2025年10月9日
学科分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL)

作者

Tajamul Ashraf, Umair Nawaz, Abdelrahman M. Shaker, Rao Anwer, Philip Torr, Fahad Shahbaz Khan, Salman Khan

摘要

视觉语言模型（VLMs）越来越多地被部署为具有外部工具访问权限的控制器，用于复杂推理和决策，但其有效性仍受限于高质量多模态轨迹的稀缺性和手动标注的成本。我们通过一个以视觉为中心的智能体调优框架来解决这一挑战，该框架自动合成多模态轨迹、生成逐步偏好对，并训练VLM控制器以实现稳健的工具使用推理。我们的流程首先构建了M-TRACE，一个包含28.5K多模态任务和177K已验证轨迹的大规模数据集，支持基于模仿的轨迹调优。在此基础上，我们开发了MATRIX Agent，一个在M-TRACE上微调的控制器，用于逐步工具推理。为实现更精细的对齐，我们进一步引入了Pref-X，一组11K自动生成的偏好对，并通过逐步偏好学习优化MATRIX。在三个基准测试（Agent-X、GTA和GAIA）中，MATRIX consistently surpasses both open- and closed-source VLMs, demonstrating scalable and effective multimodal tool use.

数据集与资源

M-TRACE数据集: 包含28.5K多模态任务和177K已验证轨迹的大规模数据集
Pref-X偏好对: 11K自动生成的偏好对
代码与数据: https://arxiv.org/abs/2510.08567v1

文件信息

版本: v1
文件大小: 4,411 KB
文件格式: PDF、HTML（实验性）、TeX源码

搜集汇总

数据集介绍

构建方式

M-TRACE数据集通过自动化合成与验证流程构建，涵盖多模态任务与工具使用轨迹。其构建过程分为四个关键阶段：首先基于种子查询通过大语言模型生成多样化可执行任务；随后采用查询优先策略创建配套多模态文件，确保任务与资源的紧密对齐；接着利用零样本ReAct风格代理生成逐步推理轨迹，仅保留有效执行记录；最后通过并行验证器分别检验任务可行性与轨迹合理性，过滤噪声样本。该流程最终从43.5K初始候选数据中蒸馏出28.5K高质量多模态任务，形成包含177K已验证轨迹的大规模数据集。

特点

该数据集具有显著的多样性与实用性特征。在模态覆盖方面，支持图像、文档、电子表格等十余种文件格式，真实还原多模态交互场景；知识领域横跨金融、文化、环境等16个类别，体现广泛的任务覆盖面。工具使用分布呈现均衡性，涵盖网络搜索、视觉问答、文件解析等核心功能，其中网络搜索占比最高达35.3%，契合实际应用需求。轨迹复杂度分布合理，多数任务需要2-5个推理步骤，部分复杂案例可达9步，既包含基础操作也涵盖深度推理场景，为智能代理训练提供丰富梯度。

使用方法

数据集适用于分阶段训练视觉语言模型代理。在监督微调阶段，模型通过ReAct范式学习逐步生成推理思路与工具调用代码，执行真实工具并观察结果，以交叉熵目标优化轨迹生成能力。在偏好优化阶段，可利用数据集构建的Pref-X偏好对，通过直接偏好优化方法细化模型决策。使用时应将查询与多模态文件作为输入，引导模型在思维-代码-观察的循环中完成工具调用，特别注意最终答案不参与监督，强制模型依赖工具交互而非记忆知识。该设计使模型既能掌握基础工具使用技能，又能通过自探索提升决策质量。

背景与挑战

背景概述

M-TRACE数据集由穆罕默德·本·扎耶德人工智能大学与牛津大学联合研发，于2025年正式发布，旨在解决多模态智能体在工具调用推理领域的数据稀缺问题。该数据集构建了28.5万个多模态任务与17.7万条验证轨迹，覆盖视觉问答、文档分析、跨模态推理等核心场景，通过自动化合成与双重验证机制，显著提升了视觉语言模型在复杂任务中的规划能力与工具协调效率，为多模态代理系统的可扩展训练奠定了数据基础。

当前挑战

该数据集致力于攻克多模态工具调用推理的三大核心挑战：首先，在领域问题层面，需解决视觉语言模型在长链推理中的工具选择歧义性、跨模态语义对齐误差以及动态环境下的幻觉抑制难题；其次，在构建过程中面临多源数据融合的异构性挑战，包括跨格式文件（图像/文档/表格）的语义一致性校验、自动化轨迹生成中的逻辑闭环保障，以及通过并行验证器实现噪声轨迹过滤与质量控制的平衡问题。

常用场景

经典使用场景

在视觉语言模型与外部工具协同工作的研究领域中，M-TRACE数据集为多模态任务中的工具调用推理提供了标准化评估平台。该数据集通过构建包含2.85万个多模态任务和17.7万条验证轨迹的大规模语料库，成为训练和评估智能体工具使用能力的核心资源。其经典应用场景体现在对视觉推理任务的系统性验证，例如通过目标检测工具统计图像中的物体数量，再结合价格信息进行数学计算，完整展现了从感知到决策的端到端推理链条。

解决学术问题

M-TRACE有效解决了多模态智能体研究中的关键学术难题。传统方法依赖昂贵的人工标注轨迹，存在规模有限和领域偏差的瓶颈，而该数据集通过自动化合成与验证机制，突破了数据稀缺的制约。其构建的验证轨迹覆盖16个知识领域和10余种文件格式，为研究社区提供了研究工具调用一致性、推理链可靠性和跨模态对齐能力的基准平台。特别是在减少模型幻觉现象、提升工具参数准确性方面，该数据集为开发具有稳健推理能力的多模态系统提供了重要支撑。

衍生相关工作

该数据集的发布催生了系列创新性研究工作。以M-TRACE为基础的MATRIX框架开创了轨迹监督与偏好优化相结合的训练范式，启发了后续如ToolAlpaca、APIGen等工具学习项目的演进。在评估体系方面，衍生的Agent-X、GTA和GAIA基准测试推动了多模态智能体评估标准的完善。特别在步级偏好优化技术路径上，该数据集为DPO在多模态领域的应用提供了实践范本，促进了视觉语言模型与工具生态系统协同演进的研究浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集