REALM-Bench

Name: REALM-Bench
Creator: 斯坦福大学
Published: 2025-02-26 13:24:22
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/genglongling/REALM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

REALM-Bench是一个针对LLMs和Multi-Agent Systems的实时规划问题的综合评估框架。该数据集由斯坦福大学提供，包含11个从基础到高度复杂的设计问题，涵盖了多智能体协调、智能体间的依赖关系以及动态环境干扰等关键方面。每个问题可以根据并行规划线程数、依赖关系复杂度以及意外中断的频率和影响三个维度进行扩展。该数据集旨在推动更健壮、适应性更强的AI规划系统在现实世界应用中的发展。

REALM-Bench is a comprehensive evaluation framework for real-time planning problems targeting Large Language Models (LLMs) and Multi-Agent Systems. Provided by Stanford University, this dataset includes 11 design problems ranging from basic to highly complex, covering core aspects such as multi-agent coordination, interdependencies between agents, and dynamic environmental disturbances. Each problem can be scaled across three dimensions: the number of parallel planning threads, the complexity of dependency relationships, and the frequency and impact of unexpected interruptions. This dataset is designed to advance the development of more robust and adaptive AI planning systems for real-world applications.

提供机构：

斯坦福大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

REALM-Bench数据集的构建方式是基于对现实世界规划场景的模拟，它涵盖了从基础到高度复杂的11个设计问题，这些问题涉及多智能体协调、智能体间依赖关系以及动态环境干扰等关键方面。每个问题都可以沿着三个维度进行扩展：并行规划线程的数量、相互依赖的复杂性以及意外干扰的频率和影响。该数据集包括详细的规范、评估指标和基于当代框架如LangGraph的基准实现，使研究人员能够对单智能体和多智能体规划能力进行严格的测试。

特点

REALM-Bench数据集的特点在于其真实世界的规划和决策挑战，这些挑战需要协调规划、决策制定以及在专业智能体之间进行合作。数据集包括11个场景，这些场景在并行规划线程、相互依赖关系和意外干扰的频率和影响这三个关键维度上逐步增加复杂性。此外，该数据集还提供了详细的规范、评估指标和基准实现，使研究人员能够对单智能体和多智能体规划能力进行严格的测试。

使用方法

REALM-Bench数据集的使用方法包括：1. 选择合适的评估指标：根据规划任务的特点，选择合适的评估指标，例如规划质量、协调性、适应性、资源管理和约束满足等。2. 设置基准：使用基准实现作为参考，评估规划系统的性能。3. 实施规划系统：将规划系统应用于数据集中的场景，并进行评估和调试。4. 分析和改进：根据评估结果，分析和改进规划系统的性能和可靠性。

背景与挑战

背景概述

REALM-Bench数据集是由斯坦福大学的研究团队于2025年开发的一个全面评估框架，旨在评估单个大型语言模型（LLMs）和多智能体系统在现实世界规划场景中的性能。该框架包含11个设计好的问题，这些问题从基本的到高度复杂的都有，涉及多智能体协调、智能体之间的依赖关系和动态环境干扰等关键方面。每个问题都可以在三个维度上进行扩展：并行规划线程的数量、依赖关系的复杂性和意外干扰的频率，需要实时调整。该基准包括详细的规范、评估指标和现代框架（如LangGraph）的基线实现，使单智能体和多智能体规划能力的严格测试成为可能。通过标准化的评估标准和可扩展的复杂性，该基准旨在推动开发更健壮和适应性更强的AI规划系统，以用于现实世界的应用。

当前挑战

REALM-Bench数据集面临的挑战包括解决现实世界中的复杂问题，如供应链管理、灾难响应、医疗物流和投资策略等，这些问题需要专门的智能体之间的协调规划和决策。现有的AI基准主要侧重于感知、语言理解或基本推理，而REALM-Bench则侧重于解决现实世界中的挑战，这些挑战需要协调规划和决策。此外，构建REALM-Bench数据集的过程中，研究团队面临着如何设计能够模拟现实世界复杂性的场景的挑战，以及如何使这些场景既易于人类验证和调试，又足够复杂以推动当前AI系统的边界。为了应对这些挑战，研究团队设计了具有不同难度级别的场景，并在三个关键维度上进行了扩展，以评估规划系统的性能。

常用场景

经典使用场景

REALM-Bench数据集广泛应用于评估和测试大型语言模型（LLMs）和多智能体系统（MAS）在真实世界规划场景中的性能。该数据集包含了从基础到复杂的11个设计好的问题，涵盖了多智能体协调、智能体间依赖和动态环境干扰等关键方面。每个问题都可以在三个维度上进行扩展：并行规划线程的数量、智能体间依赖的复杂性和意外干扰的频率。数据集提供了详细的规范、评估指标和基于现代框架（如LangGraph）的基线实现，从而能够严格测试单一智能体和多智能体规划能力。

实际应用

REALM-Bench数据集在实际应用场景中具有广泛的应用前景。例如，在校园导游协调、婚礼物流、城市拼车、灾难救援物流、全球供应链管理和股票预测等领域，REALM-Bench可以帮助评估和测试AI系统的性能，从而提高这些领域的效率和质量。

衍生相关工作

REALM-Bench数据集的发布推动了相关领域的研究进展，衍生出许多经典工作。例如，LangGraph框架和MACI多智能体协同智能框架等，都是基于REALM-Bench数据集开发出来的。这些相关工作进一步推动了LLMs和MAS在规划领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集