acp_bench

Hugging Face2024-09-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ibm/acp_bench

下载链接

链接失效反馈

官方服务：

资源简介：

ACP Bench是一个用于评估大型语言模型（LLMs）在动作、变化和规划方面的推理能力的数据集。该数据集包含7个推理任务，涵盖13个领域，其中包括11个经典规划领域、ALFWorld和一个新的Swap领域。这些任务包括动作适用性（app）、进展（prog）、原子可达性（reach）、验证（val）、动作可达性（areach）、合理性（just）和地标（land）。ACP Bench的开发集和测试集可以在GitHub仓库和Hugging Face数据集中下载。

提供机构：

IBM

创建时间：

2024-09-24

原始信息汇总

ACP Bench 数据集概述

基本信息

许可证: MIT
任务类别: 问答
标签: 规划, 推理
美观名称: ACP Bench

数据集描述

ACP Bench 是一个用于评估大型语言模型（LLMs）在动作、变化和规划方面的推理能力的数据集。ACPBench 包含 7 个推理任务，涵盖 13 个领域。这些领域包括 11 个经典规划领域、ALFWorld 和一个新颖的 Swap 领域。

任务列表

ACPBench 包含以下 7 个任务：

动作适用性（Action Applicability, app）
进展（Progression, prog）
原子可达性（Atom Reachability, reach）
验证（Validation, val）
动作可达性（Action Reachability, areach）
合理性（Justification, just）
里程碑（Landmarks, land）

数据集版本

ACPBench 的开发集和测试集可在 GitHub 仓库和 Hugging Face 数据集中下载。

引用

@article{kokel2024acp, title={ACPBench: Reasoning about Action, Change, and Planning}, author={Kokel, Harsha and Katz, Michael and Srinivas, Kavitha and Sohrabi, Shirin}, journal={arXiv}, year={2024} }

搜集汇总

数据集介绍

构建方式

ACP Bench数据集旨在评估大型语言模型在动作、变化和规划方面的推理能力。该数据集由7个推理任务组成，涵盖了13个领域，其中包括11个经典规划领域、ALFWorld以及一个新颖的Swap领域。每个任务都经过精心设计，以测试模型在不同情境下的推理能力。数据集的开发集和测试集可通过GitHub和Hugging Face平台获取，确保了数据的广泛可用性和可重复性。

使用方法

使用ACP Bench数据集时，研究人员可以通过下载开发集和测试集来评估模型的推理能力。数据集提供了详细的标注和任务描述，帮助用户理解每个任务的目标和要求。用户可以根据需要选择特定的任务或领域进行测试，并通过对比模型在不同任务中的表现，深入分析模型的推理能力。此外，数据集的开放性和可访问性使得研究人员能够轻松地将其应用于各种实验和研究中。

背景与挑战

背景概述

ACP Bench数据集由IBM的研究团队于2024年推出，旨在评估大型语言模型（LLMs）在动作、变化和规划（Action, Change, and Planning, ACP）领域的推理能力。该数据集由Harsha Kokel、Michael Katz、Kavitha Srinivas和Shirin Sohrabi等研究人员共同开发，涵盖了13个领域，包括11个经典规划领域、ALFWorld以及一个新颖的Swap领域。ACP Bench通过7个推理任务（如动作适用性、进展、原子可达性等）来全面测试模型的推理能力，为相关领域的研究提供了重要的基准工具。

当前挑战

ACP Bench数据集面临的挑战主要体现在两个方面。首先，在领域问题的解决上，如何准确评估模型在复杂规划任务中的推理能力是一个核心难题，尤其是在多领域、多任务的环境下，模型需要具备高度的泛化能力和逻辑推理能力。其次，在数据集的构建过程中，研究人员需要确保每个任务的多样性和复杂性，同时保持数据的高质量和一致性，这对数据收集、标注和验证提出了较高的要求。此外，如何将不同领域的任务整合到一个统一的评估框架中，也是构建过程中的一大挑战。

常用场景

经典使用场景

ACP Bench数据集主要用于评估大型语言模型在行动、变化和规划方面的推理能力。该数据集涵盖了13个不同领域的7种推理任务，包括经典规划领域和新兴的Swap领域。通过这一数据集，研究人员能够系统地测试和比较不同模型在处理复杂规划问题时的表现，从而推动相关领域的技术进步。

解决学术问题

ACP Bench数据集解决了在人工智能领域中，如何有效评估模型在复杂规划任务中的推理能力这一关键问题。通过提供多样化的任务和领域，该数据集为研究者提供了一个标准化的评估平台，有助于揭示模型在行动适用性、进展、原子可达性等方面的优势和不足，从而推动规划推理技术的进一步发展。

实际应用

在实际应用中，ACP Bench数据集可广泛应用于智能助手、自动化规划系统以及机器人控制等领域。通过利用该数据集训练的模型，能够更好地理解和执行复杂的任务规划，提升系统的自主决策能力和适应性，从而在工业自动化、智能家居等场景中发挥重要作用。

数据集最近研究