MM-Traj

Name: MM-Traj
Creator: 北京大学智能科学与技术学院，通用人工智能国家重点实验室，北京理工大学智能信息技术北京市重点实验室，深圳MSU-BIT大学机器感知与智能计算广东省实验室，清华大学自动化系
Published: 2024-12-20 15:00:46
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

https://mat-agent.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Traj数据集由北京大学智能科学与技术学院等机构创建，包含20,000个多模态任务，涵盖15,000个文件，主要用于工具使用轨迹的生成和验证。数据集通过自动化的查询生成、文件生成和轨迹生成流程创建，确保了数据的高质量和多样性。该数据集主要用于提升视觉-语言模型在实际任务中的工具使用能力，特别是在复杂和多样的轨迹处理方面。

The MM-Traj dataset was created by the School of Intelligence Science and Technology of Peking University and other institutions. It comprises 20,000 multimodal tasks covering 15,000 files, and is primarily used for the generation and verification of tool-use trajectories. The dataset is developed through automated workflows including query generation, file generation and trajectory generation, which ensures its high quality and diversity. It is mainly designed to enhance the tool-use capabilities of vision-language models in real-world tasks, especially in handling complex and diverse trajectories.

提供机构：

北京大学智能科学与技术学院，通用人工智能国家重点实验室，北京理工大学智能信息技术北京市重点实验室，深圳MSU-BIT大学机器感知与智能计算广东省实验室，清华大学自动化系

创建时间：

2024-12-20

原始信息汇总

数据集概述

数据集名称

Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage

数据集简介

该数据集用于多模态代理调优，旨在构建一个由视觉语言模型（VLM）驱动的代理，以实现高效的工具使用。通过自动生成多模态工具使用数据并调优视觉语言模型，该数据集包含20K任务的工具使用轨迹，用于提升工具使用推理能力。

数据集关键信息

数据集名称: MM-Traj
数据集规模: 包含20K任务的工具使用轨迹
数据生成方法: 使用GPT-4o mini模型生成查询、文件和轨迹，并通过查询-文件和轨迹验证器进行数据质量保证
应用场景: 用于调优视觉语言模型（VLM），提升工具使用推理能力
评估基准: GTA和GAIA
性能提升: 在MiniCPM-V-8.5B和Qwen2-VL-7B模型上，T3-Agent的性能比未训练的VLM提升了20%

作者信息

Zhi Gao: 1,2 ★
Bofei Zhang: 2 ★
Pengxiang Li: 2,3 ★
Xiaojian Ma: 2
Yue Fan: 2
Tao Yuan: 2
Yuwei Wu: ✉3,4
Yunde Jia: 4,3
Song-Chun Zhu: 1,2,5
Qing Li: ✉2

机构信息

1: Peking University
2: Beijing Institute for Artificial General Intelligence
3: Beijing Institute of Technology
4: Shenzhen MSU-BIT University
5: Tsinghua University

相关链接

arXiv论文链接

搜集汇总

数据集介绍

构建方式

MM-Traj数据集通过一个创新的多模态工具使用数据合成管道构建，该管道包括三个主要步骤：查询生成、文件生成和轨迹生成。首先，利用GPT-4o mini模型生成查询，并分析解决这些查询所需的文件类型。随后，根据文件类型，通过从现有图像数据集中检索或使用GPT-4o mini生成代码来生成文件。最后，通过零样本代理解决生成的任务，并收集包括思考和代码在内的轨迹。为确保数据质量，生成的任务和轨迹通过两个验证器进行筛选，以剔除低质量数据。

使用方法

MM-Traj数据集主要用于训练和评估视觉语言模型（VLM）驱动的多模态代理。通过使用该数据集进行轨迹调优，可以显著提升代理在工具使用推理方面的能力。具体使用方法包括将数据集中的任务和轨迹用于训练VLM，使其能够生成精确的思考和代码，以解决实际任务。此外，该数据集还可用于评估代理在多模态任务中的表现，特别是在GTA和GAIA等基准测试中。

背景与挑战

背景概述

MM-Traj数据集由北京大学、通用人工智能国家重点实验室（BIGAI）等机构的研究人员于2024年创建，旨在通过多模态工具使用轨迹生成大量多模态任务数据，以提升视觉语言模型（VLM）在工具使用推理中的能力。该数据集包含20,000个任务，涵盖多种知识领域，并通过GPT-4o模型生成的查询、文件和轨迹进行数据合成。MM-Traj的构建旨在解决现有多模态代理在工具使用推理中的局限性，特别是针对复杂任务的工具选择和推理能力。

当前挑战

MM-Traj数据集的构建面临两大主要挑战：一是多模态任务的收集，现实世界中的任务通常涉及多种工具和文件类型，现有的数据集难以满足这一需求；二是轨迹生成的复杂性，现有的方法通常依赖于手动定义的模板，限制了数据的多样性和对实际任务的泛化能力。此外，数据集的生成过程中需要确保查询与文件的相关性以及轨迹的合理性，这进一步增加了数据合成的难度。

常用场景

经典使用场景

MM-Traj数据集的经典使用场景主要集中在多模态任务的工具使用推理上。该数据集通过生成包含工具使用轨迹的多模态任务，帮助训练视觉语言模型（VLM）作为控制器，以实现高效的工具使用推理。例如，在图像编辑、文件分析、视频理解等任务中，VLM可以通过调用外部工具（如图像编辑工具、文件检索工具等）来解决复杂的实际问题。

解决学术问题

MM-Traj数据集解决了多模态任务中工具使用推理的学术研究问题。传统的语言模型（LLM）在处理多模态任务时，往往依赖于文本信息，导致工具使用效率低下。MM-Traj通过生成多模态任务和工具使用轨迹，提升了VLM的推理能力，使其能够更好地利用视觉信息进行工具选择和使用，从而在实际任务中表现出色。这一研究为多模态智能体的发展提供了重要的数据支持，推动了多模态任务解决能力的提升。

实际应用

MM-Traj数据集在实际应用中具有广泛的应用场景。例如，在图像编辑领域，VLM可以通过调用图像编辑工具对图像进行修改；在文件分析领域，VLM可以利用文件检索工具提取关键信息；在视频理解领域，VLM可以通过视频分析工具进行复杂的多模态推理。这些应用场景展示了MM-Traj数据集在实际任务中的强大能力，尤其是在需要多步骤推理和工具调用的复杂任务中。

数据集最近研究