X-MAS-Bench

Name: X-MAS-Bench
Creator: 上海交通大学, 牛津大学, 悉尼大学, 上海人工智能实验室
Published: 2025-05-23 01:56:39
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/MASWorks/X-MAS

下载链接

链接失效反馈

官方服务：

资源简介：

X-MAS-Bench是一个全面测试平台，旨在评估不同领域和MAS相关功能的LLMs的性能。数据集包括27个LLMs，涵盖5个领域和5个功能，共进行了超过170万次评估。

X-MAS-Bench is a comprehensive benchmark platform designed to evaluate the performance of Large Language Models (LLMs) across diverse domains and MAS-related functionalities. This benchmark dataset covers 27 LLMs, spans 5 distinct domains and 5 functional categories, and has accumulated over 1.7 million evaluation runs.

提供机构：

上海交通大学, 牛津大学, 悉尼大学, 上海人工智能实验室

创建时间：

2025-05-23

原始信息汇总

X-MAS数据集概述

数据集简介

数据集名称：X-MAS
研究主题：构建基于异构大型语言模型(LLMs)的多智能体系统
核心目标：探索利用多样化LLMs构建多智能体系统的可行性

数据集使用指南

环境配置

模型API配置
- 配置文件路径：./model_api_configs/model_api_config.json
- 配置示例： json { "model_list": [ { "model_name": "gpt-4o-mini-2024-07-18", "model_url": "http://a.b.c.d:e/v1", "api_key": "xyz" } ], "max_workers_per_model": 10 }

执行流程

代码验证 bash python inference.py --method_name <method_name> --debug
数据集推理流程
- 步骤1：构建测试数据集 bash python datasets/build_test_dataset.py --dataset_name <dataset_name>
- 步骤2：执行推理（可选顺序或并行模式）
  - 顺序模式： bash python inference.py --method_name <method_name> --test_dataset_name <dataset_name> --sequential
  - 并行模式： bash python inference.py --method_name <method_name> --test_dataset_name <dataset_name>

搜集汇总

数据集介绍

构建方式

X-MAS-Bench数据集通过系统化的评估框架构建，覆盖了5个关键领域（数学、编程、科学、医学、金融）和5种多智能体系统相关功能（问答、修订、聚合、规划、评估）。研究团队设计了标准化的提示协议，并在严格控制实验条件的基础上，对27个大型语言模型进行了超过170万次评估。数据收集过程采用随机抽样策略，每个测试集最多抽取500个样本，确保数据覆盖的广泛性和代表性。

特点

该数据集最显著的特点是首次系统评估了大型语言模型在多智能体系统中的表现，填补了该领域的空白。数据集涵盖了通用和专用模型，包括20个聊天机器人和7个推理模型，提供了跨领域、跨功能的全面性能分析。特别值得注意的是，数据集揭示了模型性能的高度情境依赖性，没有单一模型能在所有场景中表现最优，这为构建异构多智能体系统提供了重要依据。

使用方法

研究人员可通过该数据集获取不同模型在特定领域和功能下的性能表现，据此优化多智能体系统的模型配置。使用流程包括：首先确定目标领域和所需功能，然后查询数据集获取相应场景下的模型性能排名，最后选择最优模型组合构建异构系统。数据集还可用于分析模型间的协同效应，例如小型专用模型与大型通用模型的互补关系。

背景与挑战

背景概述

X-MAS-Bench是由上海交通大学等机构的研究团队于2025年提出的一个综合性测试平台，旨在评估不同大语言模型（LLMs）在多智能体系统（MAS）中的表现。该数据集聚焦于异构LLM驱动的MAS（X-MAS）范式，通过整合多样化LLMs的集体智能，突破单一模型的能力局限。研究团队评估了27个LLMs在5个领域（数学、编程、科学、医学、金融）和5种MAS相关功能（问答、修订、聚合、规划、评估）上的表现，进行了超过170万次评估，为构建高效异构MAS提供了重要参考。该工作推动了协作式AI系统的发展，为LLM在复杂任务中的应用开辟了新途径。

当前挑战

X-MAS-Bench面临的挑战主要体现在两个方面：领域问题方面，需解决异构LLMs在MAS中协同工作的性能评估问题，包括如何量化不同模型在特定功能-领域组合中的表现差异，以及如何确定最优模型选择策略；构建过程方面，需克服大规模评估的技术难题，包括设计标准化评估协议、控制实验条件的一致性，以及处理跨27个模型、5个领域和5种功能带来的组合爆炸问题。此外，还需确保评估结果的可靠性和可复现性，为异构MAS设计提供可信依据。

常用场景

经典使用场景

X-MAS-Bench作为异构大语言模型驱动的多智能体系统（X-MAS）评估基准，其经典使用场景聚焦于系统性评估27种大语言模型在数学、编程、科学、医学和金融五大领域中的问答、修订、聚合、规划和评估五项核心功能表现。通过超过170万次实验验证，该数据集揭示了不同模型在特定领域-功能组合中的差异化优势，例如Qwen2.5-7B在编程修订任务中以79.2%准确率超越更大规模模型，为构建异构多智能体系统提供了实证依据。

解决学术问题

该数据集有效解决了当前同质化多智能体系统受限于单一模型性能瓶颈的学术难题，通过量化分析不同LLM在跨领域任务中的表现差异，证实了异构模型组合可带来8.4%-47%的性能提升。其创新性地构建了包含21个测试集的评估体系，首次系统验证了模型多样性对集体智能的增强效应，为突破单模型能力边界提供了方法论支撑，推动了可扩展协作AI系统的研究范式转变。

衍生相关工作

基于该数据集催生了X-MAS-Design方法论，指导LLM-Debate、AgentVerse等经典框架完成异构化改造。衍生的X-MAS-Proto原型系统整合五项核心功能，在MATH数据集实现90.4%的state-of-the-art性能。相关发现进一步推动了LLM-Blender模型集成、MoA多模型辩论等研究方向，为动态模型选择、资源优化配置等后续研究建立了基准体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集