MMAT-1M

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/VIS-MPU-Agent/MMAT-1M

下载链接

链接失效反馈

官方服务：

资源简介：

MMAT-1M是一个大规模的多模态智能体调优数据集，旨在支持思维链（CoT）、反思和动态工具使用。该数据集由五大数据源构建，包括Visual CoT、LLaVA-CoT、The Cauldron、TabMWP和Infoseek，涵盖了视觉理解、逻辑推理、数学计算和知识检索等多个领域。数据集包含1090263个问答对和902965个对话，数据量庞大且任务覆盖面广，具有层次化的推理深度，为多模态智能体调优研究提供了坚实的基础。

MMAT-1M is a large-scale multimodal AI agent fine-tuning dataset designed to support Chain-of-Thought (CoT), reflection, and dynamic tool use. This dataset is constructed from five core data sources: Visual CoT, LLaVA-CoT, The Cauldron, TabMWP, and Infoseek, spanning multiple domains such as visual understanding, logical reasoning, mathematical calculation, and knowledge retrieval. It contains 1,090,263 question-answer pairs and 902,965 dialogues. With its massive scale, broad task coverage, and hierarchical reasoning depth, the dataset provides a solid foundation for multimodal AI agent fine-tuning research.

提供机构：

百度

创建时间：

2025-07-29

原始信息汇总

MMAT-1M 数据集概述

基本信息

名称: MMAT-1M
类型: 多模态代理调优数据集
规模: 百万级
发布日期: 2025-07-17
论文标题: A Large Reasoning Dataset for Multimodal Agent Tuning
会议: ICCV 2025
arXiv版本更新日期: 2025-07-30

数据集简介

MMAT-1M是一个专为多模态大语言模型设计的百万级调优数据集，旨在提升模型在以下方面的能力：

链式思维（CoT）推理
反思能力
动态工具利用

数据集构建方法

采用四阶段数据引擎构建：

从公开多模态数据集中筛选问答对
使用GPT-4o生成推理过程，并通过多轮范式动态整合API调用和RAG信息
通过反思机制精炼推理过程，确保逻辑一致性和准确性
可选将多轮对话压缩为单轮格式（ORR）以提高效率

许可信息

MMAT-1M整合了多个来源的数据，需遵守以下许可条款：

来源数据集	许可类型	关键限制
Visual CoT	Apache 2.0	需要署名和许可声明
LLaVA-CoT	Apache 2.0	同上
The Cauldron	子集特定许可 + CC-BY-4.0（衍生提示）	商业用途可能需要单独许可
TabMWP	CC BY-NC-SA 4.0	仅限非商业用途，需相同方式共享
Infoseek	Apache 2.0	需要署名

免责声明

不保证单个数据样本的法律状态
不对超出原始许可条款的滥用行为负责

引用格式

bibtex @inproceedings{Gao2025MMAT1M, title={MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning}, author={Tianhong Gao and Yannian Fu and Weiqun Wu and Haixiao Yue and Shanshan Liu and Gang Zhang}, booktitle={Proceedings of ICCV}, year={2025}, }

搜集汇总

数据集介绍

构建方式

MMAT-1M数据集的构建采用了创新的四阶段数据引擎方法。首先，研究人员精心筛选了包含问答对的公开多模态数据集作为基础。随后，利用GPT-4o生成原始问答对的推理过程，并通过多轮范式动态整合API调用和检索增强生成（RAG）信息。在第三阶段，通过反思机制对推理过程进行优化，确保逻辑一致性和准确性，形成包含推理与反思（RR）的多轮对话数据集。最后，为提高效率，可选择将多轮对话压缩为单轮推理与反思（ORR）格式。这一构建过程不仅保证了数据集的多样性和完整性，还显著提升了模型的推理能力和工具使用效率。

特点

MMAT-1M数据集作为首个百万规模的多模态智能体调优数据集，具有显著的特点。其覆盖了视觉理解、逻辑推理、数学计算和知识检索等多个关键领域，确保了任务的多样性和全面性。数据集包含超过100万条问答对和90万条对话，支持链式推理（CoT）、反思和动态工具使用。此外，MMAT-1M通过反思机制有效减少了推理过程中的逻辑错误，增强了模型的鲁棒性。数据集还提供了单轮和多轮两种格式，为实际应用中的精度与效率平衡提供了灵活性。这些特点使其成为提升多模态大语言模型推理和工具使用能力的理想选择。

使用方法

MMAT-1M数据集的使用方法主要包括监督微调（SFT）和低秩适应（LoRA）技术。研究人员可以选择单轮推理与反思（ORR）或多轮推理与反思（RR）策略进行模型训练。ORR格式适合需要快速响应的应用场景，而RR格式则通过多轮动态推理和工具调用提供更高的精度。在训练过程中，模型通过API调用（如图像描述、OCR、开放词汇目标检测等）和RAG检索外部知识，逐步优化推理能力。实验表明，基于MMAT-1M微调的模型在多个公共基准测试中表现显著提升，例如InternVL2.5-8B-RR模型在八个基准测试中平均提升了2.7%，在Dyn-VQA基准测试中提升了8.8%。

背景与挑战

背景概述

MMAT-1M是由百度公司的高天宏、付燕年等研究人员于2025年提出的首个百万规模多模态智能体调优数据集，旨在解决多模态大语言模型在思维链推理和工具调用方面的能力瓶颈。该数据集通过创新的四阶段数据引擎构建，整合了视觉问答、数学推理、知识检索等多样化任务，覆盖了Visual CoT、LLaVA-CoT等5个核心数据源，共包含109万条高质量样本。作为多模态代理调优领域的里程碑式资源，MMAT-1M显著提升了开源模型在8个基准测试中的平均性能（如InternVL2.5-8B模型提升2.7%），特别是在动态视觉问答任务Dyn-VQA上实现了8.8%的性能突破，推动了多模态推理与工具协同研究的发展。

当前挑战

MMAT-1M针对多模态智能体面临的三大核心挑战：现有数据集分布同质化导致泛化能力受限，视觉工具错误缺乏反思机制影响模型鲁棒性，以及静态推理范式难以适应现实场景的灵活需求。在构建过程中，研究团队需解决多源数据格式对齐、GPT-4o生成内容的逻辑一致性校验等难题，通过引入反思机制纠正29%的数学推导错误，并设计单轮(ORR)与多轮(RR)双格式以平衡推理精度与效率。实验表明，动态API调用（如图像描述、OCR等工具）的合理调度使模型在复杂视觉理解任务中的准确率提升15%，但固定工具集的局限性仍导致零样本场景下12%的性能损失。

常用场景

经典使用场景

MMAT-1M数据集作为首个百万规模的多模态智能体调优数据集，其经典使用场景主要集中在提升多模态大语言模型（MLLMs）的链式思维推理（CoT）和动态工具调用能力。通过整合视觉问答、数学推理、文档解析等多样化任务，该数据集支持模型在生成理性（Rationale）和反思（Reflection）的多轮对话中完成复杂推理，例如结合OCR识别文本后修正错误结果，或通过反射机制补全数学推导步骤。其四阶段数据引擎（数据筛选、理性生成、反思优化、轨迹整合）确保了推理链的逻辑严谨性，适用于需要高鲁棒性和灵活工具调用的学术研究与实际应用场景。

衍生相关工作

MMAT-1M的构建方法论衍生出多类经典工作：其反射机制启发了LLaVA-Plus的视觉工具学习框架，而动态工具调用范式被T3-Agent扩展至20K轨迹的MM-Traj数据集。数据引擎中场景图生成模块（CCoT）为M3CoT等后续研究提供了跨模态关联建模基准。此外，其单轮压缩策略（ORR）与LUMOS的思维链压缩技术形成互补，共同推动高效推理的发展。开源社区已基于该数据集开发了VLMEvalKit评估工具，进一步标准化多模态智能体的评测体系。

数据集最近研究