M-TRACE
收藏arXiv2025-10-10 更新2025-10-11 收录
下载链接:
https://arxiv.org/abs/2510.08567v1
下载链接
链接失效反馈官方服务:
资源简介:
M-TRACE 是一个大规模的多模态任务数据集,包含 28.5K 个多模态任务和 177K 个经过验证的步骤级工具使用轨迹,为模仿学习提供了广泛覆盖的工具推理技能。数据集涵盖了多种文件类型、知识领域、工具使用和步骤复杂性,反映了现实世界中的问题解决情况。
M-TRACE is a large-scale multimodal task dataset consisting of 28.5K multimodal tasks and 177K validated step-level tool usage trajectories, which offers comprehensively covered tool reasoning skills for imitation learning. The dataset spans diverse file types, knowledge domains, tool usage scenarios and step complexities, reflecting real-world problem-solving scenarios.
提供机构:
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI),United Arab Emirates
创建时间:
2025-10-10
原始信息汇总
MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
基本信息
- 标题: MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
- arXiv ID: arXiv:2510.08567v1
- 提交日期: 2025年10月9日
- 学科分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL)
作者
Tajamul Ashraf, Umair Nawaz, Abdelrahman M. Shaker, Rao Anwer, Philip Torr, Fahad Shahbaz Khan, Salman Khan
摘要
视觉语言模型(VLMs)越来越多地被部署为具有外部工具访问权限的控制器,用于复杂推理和决策,但其有效性仍受限于高质量多模态轨迹的稀缺性和手动标注的成本。我们通过一个以视觉为中心的智能体调优框架来解决这一挑战,该框架自动合成多模态轨迹、生成逐步偏好对,并训练VLM控制器以实现稳健的工具使用推理。我们的流程首先构建了M-TRACE,一个包含28.5K多模态任务和177K已验证轨迹的大规模数据集,支持基于模仿的轨迹调优。在此基础上,我们开发了MATRIX Agent,一个在M-TRACE上微调的控制器,用于逐步工具推理。为实现更精细的对齐,我们进一步引入了Pref-X,一组11K自动生成的偏好对,并通过逐步偏好学习优化MATRIX。在三个基准测试(Agent-X、GTA和GAIA)中,MATRIX consistently surpasses both open- and closed-source VLMs, demonstrating scalable and effective multimodal tool use.
数据集与资源
- M-TRACE数据集: 包含28.5K多模态任务和177K已验证轨迹的大规模数据集
- Pref-X偏好对: 11K自动生成的偏好对
- 代码与数据: https://arxiv.org/abs/2510.08567v1
文件信息
- 版本: v1
- 文件大小: 4,411 KB
- 文件格式: PDF、HTML(实验性)、TeX源码
搜集汇总
数据集介绍

构建方式
M-TRACE数据集通过自动化合成与验证流程构建,涵盖多模态任务与工具使用轨迹。其构建过程分为四个关键阶段:首先基于种子查询通过大语言模型生成多样化可执行任务;随后采用查询优先策略创建配套多模态文件,确保任务与资源的紧密对齐;接着利用零样本ReAct风格代理生成逐步推理轨迹,仅保留有效执行记录;最后通过并行验证器分别检验任务可行性与轨迹合理性,过滤噪声样本。该流程最终从43.5K初始候选数据中蒸馏出28.5K高质量多模态任务,形成包含177K已验证轨迹的大规模数据集。
特点
该数据集具有显著的多样性与实用性特征。在模态覆盖方面,支持图像、文档、电子表格等十余种文件格式,真实还原多模态交互场景;知识领域横跨金融、文化、环境等16个类别,体现广泛的任务覆盖面。工具使用分布呈现均衡性,涵盖网络搜索、视觉问答、文件解析等核心功能,其中网络搜索占比最高达35.3%,契合实际应用需求。轨迹复杂度分布合理,多数任务需要2-5个推理步骤,部分复杂案例可达9步,既包含基础操作也涵盖深度推理场景,为智能代理训练提供丰富梯度。
使用方法
数据集适用于分阶段训练视觉语言模型代理。在监督微调阶段,模型通过ReAct范式学习逐步生成推理思路与工具调用代码,执行真实工具并观察结果,以交叉熵目标优化轨迹生成能力。在偏好优化阶段,可利用数据集构建的Pref-X偏好对,通过直接偏好优化方法细化模型决策。使用时应将查询与多模态文件作为输入,引导模型在思维-代码-观察的循环中完成工具调用,特别注意最终答案不参与监督,强制模型依赖工具交互而非记忆知识。该设计使模型既能掌握基础工具使用技能,又能通过自探索提升决策质量。
背景与挑战
背景概述
M-TRACE数据集由穆罕默德·本·扎耶德人工智能大学与牛津大学联合研发,于2025年正式发布,旨在解决多模态智能体在工具调用推理领域的数据稀缺问题。该数据集构建了28.5万个多模态任务与17.7万条验证轨迹,覆盖视觉问答、文档分析、跨模态推理等核心场景,通过自动化合成与双重验证机制,显著提升了视觉语言模型在复杂任务中的规划能力与工具协调效率,为多模态代理系统的可扩展训练奠定了数据基础。
当前挑战
该数据集致力于攻克多模态工具调用推理的三大核心挑战:首先,在领域问题层面,需解决视觉语言模型在长链推理中的工具选择歧义性、跨模态语义对齐误差以及动态环境下的幻觉抑制难题;其次,在构建过程中面临多源数据融合的异构性挑战,包括跨格式文件(图像/文档/表格)的语义一致性校验、自动化轨迹生成中的逻辑闭环保障,以及通过并行验证器实现噪声轨迹过滤与质量控制的平衡问题。
常用场景
经典使用场景
在视觉语言模型与外部工具协同工作的研究领域中,M-TRACE数据集为多模态任务中的工具调用推理提供了标准化评估平台。该数据集通过构建包含2.85万个多模态任务和17.7万条验证轨迹的大规模语料库,成为训练和评估智能体工具使用能力的核心资源。其经典应用场景体现在对视觉推理任务的系统性验证,例如通过目标检测工具统计图像中的物体数量,再结合价格信息进行数学计算,完整展现了从感知到决策的端到端推理链条。
解决学术问题
M-TRACE有效解决了多模态智能体研究中的关键学术难题。传统方法依赖昂贵的人工标注轨迹,存在规模有限和领域偏差的瓶颈,而该数据集通过自动化合成与验证机制,突破了数据稀缺的制约。其构建的验证轨迹覆盖16个知识领域和10余种文件格式,为研究社区提供了研究工具调用一致性、推理链可靠性和跨模态对齐能力的基准平台。特别是在减少模型幻觉现象、提升工具参数准确性方面,该数据集为开发具有稳健推理能力的多模态系统提供了重要支撑。
衍生相关工作
该数据集的发布催生了系列创新性研究工作。以M-TRACE为基础的MATRIX框架开创了轨迹监督与偏好优化相结合的训练范式,启发了后续如ToolAlpaca、APIGen等工具学习项目的演进。在评估体系方面,衍生的Agent-X、GTA和GAIA基准测试推动了多模态智能体评估标准的完善。特别在步级偏好优化技术路径上,该数据集为DPO在多模态领域的应用提供了实践范本,促进了视觉语言模型与工具生态系统协同演进的研究浪潮。
以上内容由遇见数据集搜集并总结生成



