Blocksworld Benchmark
收藏arXiv2023-02-14 更新2024-06-21 收录
下载链接:
https://github.com/karthikv792/gpt-plan-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
Blocksworld Benchmark是由亚利桑那州立大学计算与人工智能学院的研究人员开发的一个测试大型语言模型规划能力的数据集。该数据集包含500个Blocksworld领域的实例,旨在评估LLMs在常识规划任务中的自主生成和验证简单计划的能力。数据集通过GitHub公开,支持研究社区对LLMs规划能力的进一步探索。Blocksworld是一个简单的常识领域,涉及堆叠和移动积木,目标是根据给定的初始状态和目标状态,生成一系列动作以达到目标状态。
The Blocksworld Benchmark is a dataset developed by researchers from the School of Computing and Artificial Intelligence at Arizona State University, designed to test the planning capabilities of large language models. This dataset contains 500 instances from the Blocksworld domain, aiming to evaluate LLMs' ability to autonomously generate and validate simple plans in commonsense planning tasks. The dataset is publicly available via GitHub, supporting the research community to further explore the planning capabilities of LLMs. Blocksworld is a simple commonsense domain involving stacking and moving blocks, where the goal is to generate a sequence of actions to reach the target state given the initial state and target state.
提供机构:
亚利桑那州立大学计算与人工智能学院
创建时间:
2023-02-14
搜集汇总
数据集介绍

构建方式
在自动化规划领域,评估大型语言模型的推理能力需要严谨的基准测试。Blocksworld Benchmark的构建依托于国际规划竞赛中广泛采用的经典积木世界领域,通过系统化的方法生成测试实例。该数据集采用分层架构,包含领域无关组件与领域相关组件。领域相关组件负责生成随机规划问题实例,涵盖不同初始状态与目标配置,并利用模板机制将符号化的规划描述转换为自然语言文本,以模拟人类理解场景。领域无关组件则整合自动化规划器与验证工具,确保对模型输出进行客观、可重复的评估。整个构建过程强调自动化与可扩展性,为系统化评估语言模型在动作与变化推理方面的能力提供了坚实基础。
特点
该数据集以经典的积木世界规划问题为核心,具备多维度评估框架。其显著特点在于设计了七类测试案例,覆盖从基础规划生成到复杂场景泛化的完整推理谱系。这些案例不仅包括直接规划任务,还涉及目标重构鲁棒性、计划重用、重规划以及程序化模式泛化等高级认知能力评估。数据集通过严格的符号化验证机制,确保对模型输出的可执行性与正确性进行自动化检验,避免了主观判断的干扰。同时,数据集支持对模型在自主模式、启发式模式及人机协同模式下的性能进行综合测评,为深入理解语言模型在序列决策任务中的能力边界提供了结构化视角。
使用方法
使用该数据集时,研究者可通过其提供的标准化接口对大型语言模型进行系统化评估。评估通常在少样本提示设置下进行,每个测试案例的提示均以领域描述为开端,随后提供若干带解答的示例实例,最后呈现待解决的新问题。模型生成的计划文本经由内置的翻译器解析回结构化形式,并由自动化验证器检验其可执行性与目标达成情况。对于启发式模式评估,可将模型生成的计划作为初始种子输入至LPG等经典规划器进行修复与优化。在人机协同模式中,模型建议的计划可作为辅助信息提供给人类受试者,以研究其对人类规划效率与准确性的影响。数据集配套的评估工具支持结果的可重复计算与对比分析。
背景与挑战
背景概述
在人工智能领域,规划能力作为核心推理任务之一,长期受到学界关注。Blocksworld Benchmark 由亚利桑那州立大学等机构的研究团队于2023年提出,旨在系统评估大型语言模型在常识规划任务中的表现。该数据集基于国际规划竞赛中经典的积木世界领域构建,通过设计涵盖计划生成、最优规划、重规划等七类测试任务,为衡量语言模型的动作推理与序列决策能力提供了标准化框架。其创建不仅响应了关于大语言模型涌现推理能力的广泛讨论,更为自动化规划与自然语言处理的交叉研究设立了实证基准,推动了相关领域从经验性描述向定量化评估的转变。
当前挑战
该数据集致力于解决自动化规划中语言模型自主生成可执行计划的挑战,尤其在常识性任务中评估模型能否模拟人类规划思维。构建过程中的主要挑战包括:首先,需设计能够全面覆盖规划能力维度的测试任务,如处理目标重构、意外事件重规划等复杂场景;其次,为确保评估客观性,需建立自动化验证流程,将自然语言描述的计划转化为形式化表示并进行可执行性检验;此外,数据集的构建需平衡任务复杂性与人类基线表现,以验证其作为有效评估工具的敏感性。这些挑战共同指向如何在大规模语言模型时代,建立可靠且可扩展的规划能力评估体系。
常用场景
经典使用场景
在人工智能规划领域,Blocksworld Benchmark 作为经典评估工具,主要用于系统性地检验大型语言模型在常识规划任务中的推理能力。该数据集基于国际规划竞赛中广泛采用的积木世界领域,构建了包含初始状态、目标状态及可行动作序列的结构化测试实例。研究者通过设计多种测试模式,如自主规划、启发式引导和人机协同,全面评估模型在生成、验证及优化规划方案方面的表现,为理解语言模型在序列决策任务中的内在机制提供了标准化实验平台。
衍生相关工作
该数据集的发布催生了一系列围绕语言模型规划能力评估的延伸研究。例如,后续工作借鉴其评估架构,将测试范围扩展至家庭虚拟环境、物流调度等更复杂的常识领域;同时,基于该基准发现的模型局限性,研究者进一步探索了通过微调、领域伪装或组合推理方法来提升规划鲁棒性的技术路径。这些衍生工作不仅深化了对语言模型推理机制的理论认识,也促进了规划领域与自然语言处理领域的交叉融合,形成了持续演进的研究脉络。
数据集最近研究
最新研究方向
在人工智能规划领域,Blocksworld Benchmark作为经典测试平台,近期研究聚焦于评估大语言模型(LLMs)的规划能力。前沿探索揭示,尽管LLMs在自然语言处理任务中表现卓越,但其在自主生成可执行规划方面的能力仍显薄弱,成功率仅约3%。当前热点围绕LLMs在启发式模式和人机协同模式中的应用,例如利用LLMs生成初始规划供传统规划器修正,或作为人类规划者的辅助工具。这些研究不仅挑战了LLMs具备内在推理能力的假设,还推动了规划与语言模型交叉领域的方法创新,为构建更可靠的智能规划系统提供了实证基础。
相关研究论文
- 1On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)亚利桑那州立大学计算与人工智能学院 · 2023年
以上内容由遇见数据集搜集并总结生成



