SwarmBench

Name: SwarmBench
Creator: 中国人民大学高瓴人工智能学院
Published: 2025-05-07 20:32:01
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://github.com/x66ccff/swarmbench

下载链接

链接失效反馈

官方服务：

资源简介：

SwarmBench 是一个用于评估大型语言模型（LLMs）在多智能体系统（MAS）中协调能力的新型基准。该数据集模拟了五个基础的多智能体协调任务（追逐、同步、觅食、群聚、运输），在一个可配置的二维网格环境中进行。SwarmBench 的设计旨在评估 LLMs 在感知和通信受限条件下的协调能力，类似于自然群居生物。数据集提供了一个开放、可扩展的工具包，包括环境、提示、评估脚本和实验生成的综合数据集，旨在促进对 LLM 基于MAS协调和Embodied MAS理论基础的可重复研究。

SwarmBench is a novel benchmark for evaluating the coordination capabilities of Large Language Models (LLMs) in multi-agent systems (MAS). This dataset simulates five fundamental multi-agent coordination tasks, namely pursuit, synchronization, foraging, flocking, and transportation, within a configurable two-dimensional grid environment. Designed to assess LLMs' coordination abilities under constrained perception and communication conditions analogous to natural swarm organisms, SwarmBench provides an open, extensible toolkit encompassing the environment, prompts, evaluation scripts, and a comprehensive experimental dataset, aiming to facilitate reproducible research on LLM-based MAS coordination and the theoretical foundations of Embodied MAS.

提供机构：

中国人民大学高瓴人工智能学院

创建时间：

2025-05-07

原始信息汇总

SwarmBench 数据集概述

基本信息

名称: SwarmBench
类型: 基准测试数据集
目的: 评估大型语言模型（LLMs）在去中心化代理中的群体智能能力
论文: arXiv:2505.04364
许可证: MIT
开源: 是

核心特点

新颖性: 基于群体智能原则，评估去中心化协调能力
任务设计: 包含五种多代理系统（MAS）基础任务
- 🎯 追踪（Pursuit）: 代理协作追踪并围堵移动速度更快的目标
- ⏱️ 同步（Synchronization）: 代理同步内部二进制状态
- 🧺 觅食（Foraging）: 代理导航、运输食物并协调任务分配
- 🐦 集群（Flocking）: 代理保持群体一致性和分离性
- 🚚 运输（Transport）: 多个代理协作推动大型物体到目标位置
环境: 可配置的2D网格环境，依赖局部感知（k × k 视图）和局部通信
评估: 系统化评估LLMs在群体场景中的能力和限制
分析: 研究LLM群体行为与集体智能概念的关联

工具包内容

物理系统: 可定制和扩展
环境: 标准化提示和评估脚本
数据集: 全面的实验数据
设计目标: 支持LLM-based MAS协调的可重复研究

快速开始

环境设置 bash conda env create -f environment.yaml conda activate swarmbench
运行评估 bash python example.py
导出回放视频 bash export_videos.sh
交互式回放 bash python analysis/generate_replay_videos.py --log-dir ./your_experiment_dir -v

示例回放

追踪:
同步:
觅食:
集群:
运输:

搜集汇总

数据集介绍

构建方式

SwarmBench是一个专为评估大型语言模型（LLM）在严格感知和通信约束下的分散协调能力而设计的基准测试。该数据集通过模拟二维网格世界中的五种核心多智能体协调任务（追踪、同步、觅食、聚集和运输）来构建，每个任务都旨在探索不同的群体智能行为。数据集的构建采用了模块化和可扩展的物理系统，其中智能体的感知范围被限制在局部k×k网格视野内，通信仅限于局部匿名消息传递。通过这种方式，SwarmBench强制智能体依赖本地线索和隐式协调，从而模拟自然群体中的分散决策过程。

特点

SwarmBench数据集的特点在于其严格的分散约束和多样化的任务设计。首先，智能体的感知和通信被限制在局部范围内，这模拟了真实群体智能中的信息受限环境。其次，数据集包含五种不同的任务，每种任务都针对不同的协调能力进行评估，如空间推理、共识形成和集体运动。此外，SwarmBench提供了丰富的评估指标，包括协调效果、行为多样性和群体动态分析，使得研究者能够全面评估LLM在分散环境中的表现。数据集的可配置性和可扩展性进一步增强了其适用性，使其能够适应不同的研究需求。

使用方法

SwarmBench数据集的使用方法包括以下几个步骤：首先，研究者需要选择或配置特定的任务和环境参数，如智能体数量、感知范围和任务难度。其次，通过零样本评估协议，将LLM作为分散智能体的决策核心，每个智能体根据局部观察和接收到的消息独立生成行动和通信内容。然后，利用数据集提供的评估脚本和指标（如任务得分、行为熵和群体动态指标）对智能体的表现进行量化分析。最后，研究者可以通过分析实验结果，探索LLM在分散协调中的优势和局限性。SwarmBench还提供了可视化工具和日志记录功能，便于深入理解智能体的行为模式和群体动态。

背景与挑战

背景概述

SwarmBench是由中国人民大学高瓴人工智能学院的研究团队于2025年提出的一个创新性基准测试，旨在系统评估大型语言模型(LLMs)在严格局部约束条件下表现出的群体智能能力。该数据集包含五个经典的多智能体协调任务（追捕、同步、觅食、聚集和运输），构建在可配置的2D网格环境中，要求智能体仅依靠局部感知(k×k视野)和有限通信进行决策。SwarmBench的提出填补了现有评估体系在去中心化协调能力测试方面的空白，为研究LLMs在类群体条件下的涌现行为提供了标准化平台，对分布式人工智能系统和群体机器人领域具有重要理论价值。

当前挑战

SwarmBench面临的核心挑战体现在两个维度：在领域问题层面，需要解决LLMs在严格局部感知和通信约束下的空间推理与长期规划难题，特别是在不确定环境中形成稳健的集体策略；在构建过程中，挑战包括设计具有机械特性的可扩展物理系统、平衡任务复杂度与评估可操作性，以及开发能准确量化涌现群体动态的评估指标。具体表现为：(1)智能体在局部视野限制下的战略形成困难，(2)多智能体物理交互的精确模拟，(3)匿名广播通信机制下的有效协调，以及(4)不同LLM架构在去中心化场景中的性能可比性。

常用场景

经典使用场景

SwarmBench作为评估大语言模型（LLM）在严格局部感知与通信约束下涌现式去中心化协调能力的基准测试工具，其经典使用场景聚焦于多智能体系统（MAS）中的群体智能研究。该数据集通过配置化的2D网格环境模拟了五种基础协调任务（追捕、同步、觅食、聚集、运输），强制智能体仅依赖k×k局部视野和可选局部通信进行决策，为研究LLM在生物群体启发的约束条件下如何通过局部交互产生复杂全局行为提供了标准化实验平台。其模块化架构支持任务扩展与物理参数调整，已成为测试LLM群体认知边界的重要实验框架。

实际应用

该数据集的实际应用价值体现在三个维度：在机器人集群控制领域，为设计基于LLM的分布式无人机编队、协同运输系统提供了行为范式验证平台；在复杂系统仿真中，支持研究信息受限条件下群体决策机制的涌现规律，可应用于交通流优化或应急疏散模拟；在AI安全测试方面，其严格的去中心化设定能够暴露智能体在无中央协调时的冲突解决缺陷，为分布式AI系统的鲁棒性评估建立基准。开源工具链包含可扩展物理引擎与评估脚本，可直接部署于机器人操作系统（ROS）等实际系统。

衍生相关工作

SwarmBench已衍生出三类经典研究工作：在方法论层面，催生了针对LLM群体通信优化的新型提示工程框架（如CoNash-MAS），通过改进消息语义稳定性提升任务得分；在理论探索中，启发了对群体认知多样性阈值的研究（DiverseSwarm-LLM），揭示噪声注入与性能的非线性关系；在技术应用领域，其物理交互模型被AdaptiveSwarmRL项目改造为连续空间强化学习环境，成功训练出能完成复杂物体搬运的异构机器人集群。相关成果在ICRA、AAMAS等会议形成专门研讨主题，推动LLM群体智能成为独立研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集