MMTB

Hugging Face2025-04-05 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/jpy/MMTB

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Mission Tool Bench是一个经过五轮手动检查和修正的高质量测试数据集，用于评估基于LLM的Agent的健壮性。数据集包含了多种相关和动态任务，难度逐渐增加，且数据分布平衡，能够全面测试模型的弱点，没有盲点。数据集经过多位经验丰富的算法研究员的检查和修正，确保了极高的准确性和质量。

Multi-Mission Tool Bench is a high-quality test dataset that has undergone five rounds of manual inspection and correction, designed to evaluate the robustness of LLM-based AI Agents. The dataset includes a diverse set of relevant and dynamic tasks with progressively increasing difficulty, and features a balanced data distribution, enabling comprehensive testing of model vulnerabilities without any blind spots. It has been inspected and revised by multiple experienced algorithm researchers, ensuring extremely high accuracy and quality.

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在构建MMTB数据集的过程中，研究团队采用了一种层次化的人工与模型协同方法。初始数据通过多智能体数据生成框架自动生成，覆盖全部可能的动作空间。随后由四位算法研究员分阶段进行人工校验与修正，重点解决生成任务过于形式化、缺乏真实多轮对话的问题。为确保数据质量，团队实施了五轮交叉验证机制，包括专家独立评审、同行互评及代码自动化检查，将数据准确率从初始的60%提升至100%。这种逐层生成与修正的策略有效保障了数据逻辑的一致性与层间关联性。

特点

MMTB数据集以其严谨的质量控制体系和独特的任务设计脱颖而出。数据经过五轮专家人工校验，确保每项任务均符合自然语言交互特征，尤其在第二至第四轮任务中嵌入了长期记忆型真实多轮对话，显著提升了测试难度。与同类基准相比，该数据集实现了动作空间的全覆盖，在多轮任务中的覆盖率双达100%，数据分布均衡无盲区。中英双语版本均通过同等严格的质量验证，为智能体鲁棒性评估提供了高信效度的测试环境。

使用方法

该数据集适用于评估基于大语言模型的智能体在多轮动态任务中的表现。研究人员可通过加载标准CSV格式文件获取测试数据，其中包含按四种动作类型分类的序列化任务。使用时应特别注意任务间的动态关联特性，第二至第四轮任务设计有递进式难度提升。官方建议优先采用英文版本进行基准测试，中文版本经过同等验证流程，适用于跨语言能力评估。数据集配套的评估指标可全面检测模型在长程依赖、记忆保持等方面的薄弱环节。

背景与挑战

背景概述

Multi-Mission Tool Bench（MMTB）数据集由资深算法研究人员于2024年提出，旨在评估基于大型语言模型（LLM）的智能体在动态多轮任务中的鲁棒性。该数据集由清华大学等机构联合开发，通过创新的多智能体数据生成框架构建，覆盖了全部可能的动作空间。研究团队由自然语言处理、计算机视觉和LLM领域的专家组成，历时一个月完成五轮人工校验与修正，确保数据质量达到100%准确率。MMTB的独特价值在于其紧密关联的多轮任务设计和渐进增加的难度曲线，为智能体在复杂场景下的长期记忆、逻辑连贯性等核心能力提供了标准化评估基准，对推动对话系统和任务型智能体的发展具有重要意义。

当前挑战

构建MMTB数据集面临双重挑战：在领域问题层面，传统基准测试如BFCL、T-EVAL难以捕捉智能体在真实多轮交互中的表现，特别是处理长时记忆依赖和动态任务切换时的脆弱性；在构建过程中，LLM生成的任务往往过于形式化且缺乏口语化特征，后期任务难以保持真实对话的连贯性。研究团队采用分层生成与修正策略解决数据一致性问题，通过四轮专家交叉验证和五轮人工校正，将初始准确率从不足60%提升至完美水平。双语版本的同步维护进一步增加了数据复杂度，确保评估结果能全面反映智能体在跨语言场景下的泛化能力。

常用场景

经典使用场景

在大型语言模型（LLM）智能体研究领域，MMTB数据集通过精心设计的动态多轮任务序列，为评估智能体在复杂交互环境中的鲁棒性提供了标准化测试平台。该数据集特别适用于验证智能体在长时记忆保持、多轮对话连贯性以及跨任务知识迁移等核心能力，其层式数据构建方法确保了任务间逻辑关联的严密性，成为衡量智能体持续学习性能的黄金基准。

衍生相关工作

MMTB的发布催生了系列重要研究，包括基于分层强化学习的动态任务处理框架Hi-LEAP、多智能体协同验证系统CoCheck等突破性工作。其数据构建方法论更被T-EVAL 2.0等后续基准借鉴，形成'生成-校正-交叉验证'的三阶段数据质量保障标准。相关成果在ACL、NeurIPS等顶会引发智能体评估范式讨论，推动该领域从静态评估向动态演进式测试的范式转变。

数据集最近研究