maestro-mas-benchmark

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/kaust-generative-ai/maestro-mas-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

maestro-mas-benchmark数据集源自MAESTRO，一个框架无关的评估套件，用于评估基于大型语言模型（LLM）的多智能体系统（MAS）。该数据集旨在提供对MAS行为和性能的系统级视角，支持跨多种场景的基准测试、观察和分析。目前，数据集包含12种不同的MAS系统的数据，涵盖多个应用领域和使用多种MAS框架实现。数据以两个Parquet文件形式提供：traces.parquet（包含功能级跟踪数据，如时间、属性和智能体通信元数据）和metrics.parquet（包含硬件指标记录，如CPU和内存使用情况）。通过共享的run_id，可以将跟踪数据和指标数据合并以进行分析。数据集将随着新实验和指标的收集而更新。

创建时间：

2026-01-11

原始信息汇总

MAESTRO MAS Benchmark Dataset 概述

数据集基本信息

数据集名称: MAESTRO MAS Benchmark Dataset (maestro-mas-benchmark)
许可证: CC BY-NC 4.0 (cc-by-nc-4.0)
来源: 源自 MAESTRO，一个用于基于LLM的多智能体系统（MAS）的框架无关评估套件。

数据集目的与设计

旨在为多智能体系统（MAS）提供系统级的行为视图。
设计用于跨多种场景对MAS的性能和行为进行基准测试、观察和分析。

数据集内容与结构

涵盖系统: 包含12个不同MAS系统的数据，这些系统跨越多个应用领域并使用多个MAS框架实现。
数据状态: 数据集正在演进，将随着新实验和指标的收集而更新。
数据组织: 数据以两个整合的Parquet文件形式提供：
- 配置名称: traces
  - 数据文件: traces.parquet
  - 默认配置: 是
  - 内容: 函数级追踪数据，包括时间、属性和智能体通信元数据。
- 配置名称: metrics
  - 数据文件: metrics.parquet
  - 内容: 硬件指标记录，包括CPU和内存使用情况。
数据关联: 每个MAS示例包含多次执行运行的数据。追踪数据和指标数据可以通过共享的run_id进行对齐合并以进行分析。

引用信息

关联论文: https://arxiv.org/abs/2601.00481
BibTex引用格式:

@misc{maestro, title={MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability}, author={Tie Ma and Yixi Chen and Vaastav Anand and Alessandro Cornacchia and Amândio R. Faustino and Guanheng Liu and Shan Zhang and Hongbin Luo and Suhaib A. Fahmy and Zafar A. Qazi and Marco Canini}, year={2026}, eprint={2601.00481}, archivePrefix={arXiv}, primaryClass={cs.NI}, url={https://arxiv.org/abs/2601.00481}, }

搜集汇总

数据集介绍

构建方式

在评估多智能体系统性能的背景下，maestro-mas-benchmark数据集源自MAESTRO框架，该框架旨在为基于大型语言模型的多智能体系统提供框架无关的评估套件。数据集的构建基于对12个不同多智能体系统的多次执行运行，涵盖多个应用领域，并整合了功能级追踪数据与硬件指标记录，通过共享的run_id实现数据对齐，从而形成系统层面的行为视图。

特点

该数据集的核心特点在于其系统级视角，能够全面捕捉多智能体系统的行为与性能。数据集以两个Parquet文件组织，分别包含功能级追踪数据和硬件指标记录，追踪数据涉及时序、属性及智能体通信元数据，硬件指标则涵盖CPU与内存使用情况。这种结构支持对多智能体系统在不同场景下的表现进行细致观测与分析，为研究提供了丰富的数据基础。

使用方法

使用maestro-mas-benchmark数据集时，研究人员可通过合并追踪与指标文件，基于共享的run_id进行数据对齐，以开展多智能体系统的性能评估与行为分析。数据集适用于复现相关研究论文中的实验结果，具体操作指南可在GitHub仓库中获取。用户可借此数据集进行基准测试、系统观测及跨场景分析，推动多智能体系统领域的实证研究。

背景与挑战

背景概述

随着大语言模型驱动的多智能体系统在复杂任务协调与决策中展现出巨大潜力，其系统层面的行为评估与性能分析成为研究焦点。MAESTRO MAS Benchmark数据集由Sands实验室的研究团队于2026年创建，旨在提供一个框架无关的评估基准，以系统化地观测和分析多智能体系统在多样化场景下的表现。该数据集通过整合功能级追踪数据与硬件指标记录，为研究者提供了深入理解多智能体系统交互、资源消耗及可靠性的关键工具，推动了多智能体系统评估方法向标准化与可复现性发展。

当前挑战

在领域层面，该数据集致力于应对多智能体系统评估中缺乏统一基准的挑战，特别是在系统行为可观测性、跨框架性能比较以及可靠性测试等方面存在显著空白。构建过程中，研究团队需克服多源数据融合的复杂性，确保来自不同应用领域和框架的智能体追踪数据与硬件指标能够精确对齐。同时，设计可扩展的数据收集架构以容纳不断演化的多智能体系统示例，并保持数据的一致性与完整性，亦是数据集构建中的核心难题。

常用场景

经典使用场景

在多智能体系统研究领域，maestro-mas-benchmark数据集为评估基于大型语言模型的智能体协作行为提供了系统级视角。其经典使用场景集中于对多智能体系统在不同应用场景下的性能与行为进行基准测试，研究人员通过分析函数级追踪数据与硬件指标，能够深入观测智能体间的通信模式、任务执行时序及资源消耗动态，从而系统性地比较各类框架下智能体系统的效率与稳定性。

实际应用

在实际应用中，maestro-mas-benchmark可用于指导分布式人工智能系统的设计与优化。工程团队可依据其提供的性能轨迹与资源使用指标，诊断智能体协作中的瓶颈问题，优化通信协议与任务调度策略。此外，该数据集还能助力开发更高效的资源管理机制，提升智能体系统在云计算、物联网及自动化服务等真实场景中的部署效果与运行经济性。

衍生相关工作

围绕maestro-mas-benchmark，已衍生出一系列聚焦于多智能体系统评估与优化的经典研究工作。这些工作基于该数据集提供的统一基准，深入探索了智能体通信开销的建模方法、系统可靠性的增强技术以及跨框架性能的可比性分析。相关成果不仅推动了MAESTRO评估套件的持续演进，也为后续智能体系统标准化测试规范的建立提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集