Open-M3-Bench

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/EtaYang10th/Open-M3-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含'M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark'的图像资源，这是一个基于模型上下文协议(MCP)的多模态工具使用基准测试。M3-Bench旨在模拟现实工作流程，要求代理在多跳和有时多线程的轨迹中联合推理图像、文本和MCP工具。数据集包含评估集中每个图像-任务对的所有基准测试图像，图像标识符与M3-Bench代码仓库中发布的JSON轨迹一致。在论文中，M3-Bench涵盖了28个多模态MCP任务和208个基准轨迹，基于28个MCP服务器和231个工具构建。该数据集中的图像作为这些轨迹和评估的视觉锚点。

创建时间：

2025-11-26

原始信息汇总

M3-Bench Image Assets 数据集概述

数据集简介

该数据集包含 M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark 的图像资源。M3-Bench 是一个基于模型上下文协议（MCP）的多模态工具使用基准测试，旨在评估智能体在需要联合推理图像、文本和MCP工具的多跳、有时是多线程的真实工作流程中的能力。

详细内容

图像资源：数据集包含 images/ 目录，存放了基准测试中的所有图像，通常每个图像-任务对在评估集中对应一张图像。
标识符一致性：图像标识符与 M3-Bench 代码仓库中发布的 JSON 轨迹文件保持一致。代码仓库地址为：https://github.com/EtaYang10th/Open-M3-Bench。

基准测试规模

根据相关论文，M3-Bench 涵盖 28 个多模态 MCP 任务 和 208 个基准测试轨迹，这些轨迹构建在 28 个 MCP 服务器（共 231 个工具） 之上。本数据集中的图像为这些轨迹和评估提供了视觉锚点。

引用信息

如果使用此数据集，请引用以下论文： bibtex @article{zhou2025m3bench, title = {M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark}, author = {Zhou, Yang and Zhao, Mingyu and Wang, Zhenting and Gu, Difei and Guo, Bangwei and Ye, Ruosong and Han, Ligong and Jin, Can and Metaxas, Dimitris N.}, journal = {arXiv preprint arXiv:2511.17729}, year = {2025} }

论文详情可访问：https://arxiv.org/abs/2511.17729。

搜集汇总

数据集介绍

构建方式

在构建多模态智能体评估体系的过程中，M3-Bench数据集通过精心设计的流程整合了视觉与工具调用能力。其构建以现实工作流为蓝本，围绕模型上下文协议（MCP）展开，涵盖了28个多模态MCP任务场景。研究团队开发了28个独立的MCP服务器，共封装了231个工具，并在此基础上生成了208条具有代表性的基准轨迹。每条轨迹均将图像、文本信息与工具调用序列有机融合，形成多跳乃至多线程的复杂推理路径，确保了评估任务对智能体协同处理多模态输入与工具使用能力的全面考察。

特点

M3-Bench数据集的核心特征在于其首创的多模态、多跳与多线程工具使用评估框架。该数据集并非简单的图像-文本配对集合，而是模拟了真实环境中智能体需交叉参照视觉锚点、文本指令与可用工具进行多步骤决策的复杂场景。其包含的208条轨迹均植根于具体的图像资产，每幅图像对应一个任务情境，驱动智能体执行包含视觉理解、工具选择与序列规划在内的综合推理。这种设计使得评估能够深入检验多模态大语言模型在开放、动态环境下的实际工具调用与问题解决效能。

使用方法

使用M3-Bench数据集进行评估时，研究者需将其图像资源与官方代码库中发布的JSON格式轨迹数据协同使用。图像资产作为视觉输入的基础，需与轨迹文件中指定的任务描述、工具调用序列及多跳推理步骤进行对齐。评估流程通常遵循模型上下文协议，引导被测试的智能体依据给定的图像和文本上下文，按轨迹规划调用相应的MCP工具以完成多步骤任务。通过分析智能体在各类多模态、多跳任务上的轨迹完成度与工具使用准确性，可以系统性地衡量其在实际工作流中的综合表现与鲁棒性。

背景与挑战

背景概述

随着多模态大语言模型在复杂任务处理中展现出日益增强的能力，如何系统评估其在实际工作流中整合视觉信息、文本指令与外部工具的综合性能，成为人工智能领域的前沿课题。在此背景下，Open-M3-Bench数据集应运而生，由Yang Zhou、Mingyu Zhao等研究人员于2025年提出，并依托arXiv平台发布相关论文。该数据集旨在构建一个针对多模态、多跳、多线程工具使用场景的基准测试，其核心研究问题聚焦于评估智能体在模型上下文协议框架下，如何协同处理图像、文本与多样化的工具调用，以完成复杂的多步骤任务。该基准的建立，为推进多模态智能体在真实、动态环境中的推理与决策能力提供了关键的评估标准，对促进具身智能与通用人工智能的发展具有显著影响力。

当前挑战

Open-M3-Bench数据集致力于解决多模态智能体在复杂工具使用场景下的评估难题，其核心挑战在于如何设计能够真实反映现实工作流中多模态、多跳及多线程交互的综合性任务。具体而言，构建过程面临多重困难：其一，需要精心设计涵盖28种不同模态任务、涉及231个工具的多样化评估轨迹，确保任务既具挑战性又具备良好的泛化性；其二，协调图像资产与对应的JSON任务轨迹之间的严格一致性，保证评估的准确性与可复现性；其三，模拟真实世界中信息不完全、决策路径分支以及并发执行的多线程场景，对基准的复杂性与可控性提出了极高要求。这些挑战共同指向了构建一个既贴近实际应用又能进行标准化评测的多模态智能体基准的内在复杂性。

常用场景

经典使用场景

在评估多模态大语言模型作为智能代理的复杂能力时，M3-Bench数据集提供了一个标准化的测试平台。该数据集模拟了现实世界中需要联合处理图像、文本信息，并调用多种工具以完成多步骤、多线程任务的场景。研究者通过该数据集能够系统地评估模型在理解视觉内容、进行逻辑推理、规划工具使用序列以及处理并发任务等方面的综合表现，为模型能力的量化比较提供了坚实基础。

实际应用

M3-Bench所构建的评估框架，直接映射到诸多需要人机协作或自主执行复杂流程的实际领域。例如，在智能办公自动化中，代理需要解读图表文档并操作相应软件；在创意设计辅助场景下，模型需理解视觉概念并调用工具生成或修改素材；在交互式教育或技术支持中，系统则需根据用户提供的图文混合指令，逐步调用工具解决问题。该数据集为开发此类能够无缝融入真实工作流的实用型智能代理提供了关键的评估指引。

衍生相关工作

围绕M3-Bench数据集及其提出的评估范式，已催生了一系列关注多模态工具学习与智能代理评估的后续研究。这些工作或致力于开发在该基准上表现更优的新型模型架构与训练策略，或借鉴其多模态、多跳、多线程的核心思想，构建面向特定垂直领域（如机器人操作、科学发现）的专用评估基准。该数据集已成为连接基础多模态模型研究与具身智能、通用智能代理等前沿方向的重要桥梁，激发了学界对智能体复杂任务执行能力进行更细粒度、更贴近实际评估的广泛探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集