CREW-WILDFIRE
收藏arXiv2025-07-08 更新2025-07-09 收录
下载链接:
http://www.generalroboticslab.com/CREW-Wildfire
下载链接
链接失效反馈官方服务:
资源简介:
CREW-WILDFIRE是一个开源的基准数据集,旨在评估基于大型语言模型的多智能体系统在复杂、动态的现实世界任务中的可扩展性、鲁棒性和协调能力。该数据集基于人类-AI团队协作的CREW模拟平台构建,提供了程序生成的野火响应场景,具有大型地图、异构代理、部分可观察性、随机动态和长期规划目标。数据集支持低级控制和高级自然语言交互,并通过模块化的感知和执行模块与低级控制基元和基于LLM的代理进行交互。该数据集旨在解决大规模协调、通信、空间推理和不确定性下的长期规划等挑战。
CREW-WILDFIRE is an open-source benchmark dataset developed to evaluate the scalability, robustness, and coordination capabilities of large language model (LLM)-based multi-agent systems in complex, dynamic real-world tasks. Constructed on the CREW simulation platform for human-AI team collaboration, the dataset offers procedurally generated wildfire response scenarios characterized by large-scale maps, heterogeneous agents, partial observability, stochastic dynamics, and long-term planning objectives. It supports both low-level control and high-level natural language interaction, and facilitates interaction with low-level control primitives and LLM-based agents through modular perception and execution modules. This benchmark aims to address core challenges including large-scale coordination, communication, spatial reasoning, and long-term planning under uncertainty.
提供机构:
杜克大学, 美国陆军研究实验室
创建时间:
2025-07-08
原始信息汇总
CREW-Wildfire数据集概述
基本信息
- 数据集名称: CREW-Wildfire
- 发布日期: 2025年7月5日
- 预印本年份: 2025
- 作者:
- Jonathan Hyun (杜克大学)
- Nicholas R Waytowich (陆军研究实验室)
- Boyuan Chen (杜克大学)
数据集简介
CREW-Wildfire是一个开源基准测试,旨在评估基于大型语言模型(LLM)的多智能体系统在复杂、动态、真实世界任务中的可扩展性、鲁棒性和协调能力。该数据集通过程序生成的野火响应场景,提供大规模地图、异构智能体、部分可观察性、随机动态和长期规划目标。
主要特点
- 复杂性: 提供更真实的复杂性、可扩展架构和行为评估指标。
- 模块化设计: 支持通过模块化的
感知和执行模块进行低级控制和高级自然语言交互。 - 评估指标: 包括大规模协调、通信、空间推理和不确定性下的长期规划能力。
资源链接
引用信息
bibtex @misc{hyun2025crewwildfirebenchmarkingagenticmultiagent, title={CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale}, author={Jonathan Hyun and Nicholas R Waytowich and Boyuan Chen}, year={2025}, eprint={2507.05178}, archivePrefix={arXiv}, primaryClass={cs.MA}, url={https://arxiv.org/abs/2507.05178}, }
致谢
- 支持机构:
- ARL STRONG项目 (奖项: W911NF2320182, W911NF2220113, W911NF2420215)
- 宝马和OpenAI的礼品支持
搜集汇总
数据集介绍

构建方式
CREW-WILDFIRE数据集构建于人类-AI协作的CREW仿真平台之上,采用程序化生成技术创建了多样化的野火响应场景。通过Perlin噪声算法生成地形特征(如海拔、风速、植被湿度)和离散土地类型(如森林、灌木、水域),并随机分布人类定居点。野火蔓延模型采用高级细胞自动机技术,综合考虑坡度、风向、植被类型等多维因素,模拟出高度动态的火灾扩散过程。数据集中包含四类异构智能体(消防员、推土机、无人机和直升机),通过模块化的PERCEPTION(感知)和EXECUTION(执行)组件支持从底层控制到高层自然语言交互的多层次交互。
使用方法
使用CREW-WILDFIRE需通过标准化的API接口接入仿真环境。研究者可选择直接控制底层动作向量,或利用内置的PERCEPTION模块将原始观测转化为自然语言描述,经由LLM智能体生成决策。EXECUTION模块则负责将文本指令翻译为可执行动作。评估时需关注三类指标:任务完成度(如救援人数)、损害控制(如焚烧面积)和协作效能(如行为 competency得分)。数据集提供基线算法实现(如CAMON、COELA),支持对比实验设计。对于复杂任务,建议采用分层控制策略,结合高层规划与底层动作基元(primitives)提升决策效率。
背景与挑战
背景概述
CREW-WILDFIRE是由杜克大学和陆军研究实验室的研究团队于2025年推出的开源基准测试平台,旨在评估基于大型语言模型(LLM)的多智能体系统在复杂、动态和现实任务中的可扩展性、鲁棒性和协调能力。该数据集构建于人类-AI协作的CREW模拟平台之上,通过程序化生成的野火响应场景,模拟大规模地图、异构智能体、部分可观测性、随机动态和长期规划目标等真实环境条件。CREW-WILDFIRE填补了现有基准测试在小规模、完全可观测或低复杂度领域的不足,为下一代多智能体Agentic AI框架的开发和评估提供了重要基础。
当前挑战
CREW-WILDFIRE面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决大规模多智能体协作中的复杂协调、通信效率、空间推理和不确定性下的长期规划等核心问题,这些问题在现有基准测试中尚未得到充分验证。在构建过程中,研究团队需要克服异构智能体行为建模、动态环境模拟、部分可观测性实现以及自然语言与低级控制接口的模块化集成等技术难题。此外,确保基准测试的可扩展性和真实性之间的平衡,以及设计能够全面评估智能体协作行为的多维度指标,也是构建过程中的关键挑战。
常用场景
经典使用场景
CREW-WILDFIRE数据集在评估基于大型语言模型(LLM)的多智能体系统方面具有重要价值,特别是在复杂、动态和部分可观测的野火响应场景中。该数据集通过程序生成的环境,模拟了大规模地图、异构智能体、部分可观测性和随机动态等现实世界中的复杂性,为研究多智能体协作提供了理想的测试平台。
解决学术问题
CREW-WILDFIRE解决了当前多智能体系统在可扩展性、鲁棒性和协调能力评估方面的不足。传统基准测试通常局限于小规模、完全可观测或低复杂度的领域,而CREW-WILDFIRE通过引入异构智能体、长时程规划目标和动态环境,填补了这一空白。其意义在于为下一代多智能体Agentic AI框架的开发和评估提供了标准化平台,推动了多智能体协作研究的进步。
实际应用
在实际应用中,CREW-WILDFIRE可用于训练和测试多智能体系统在灾难响应、基础设施维护和城市规划等领域的表现。例如,在野火响应中,异构智能体(如无人机、直升机和消防员)需要协同工作以执行灭火、救援和资源分配等任务。该数据集的高复杂性和可扩展性使其成为开发实际部署系统的理想工具。
数据集最近研究
最新研究方向
近年来,CREW-WILDFIRE数据集在人工智能领域引起了广泛关注,特别是在多智能体协作和灾害响应方面。该数据集通过程序化生成的野火响应场景,提供了一个高度可扩展且复杂的测试平台,用于评估基于大语言模型(LLM)的多智能体系统。研究前沿主要集中在以下几个方面:首先,如何提升多智能体在部分可观测环境中的协调能力,尤其是在动态和不确定条件下的长期规划;其次,探索异构智能体(如无人机、直升机和消防员)之间的高效通信和任务分配机制;最后,研究如何通过模块化的感知和执行模块,实现低层控制与高层自然语言交互的无缝结合。这些研究方向不仅推动了多智能体系统在灾害响应中的实际应用,还为人工智能在复杂任务中的表现提供了新的评估标准。
相关研究论文
- 1CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale杜克大学, 美国陆军研究实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



