tasksource/planbench

Name: tasksource/planbench
Creator: tasksource
Published: 2024-08-21 12:16:52
License: 暂无描述

Hugging Face2024-08-21 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/tasksource/planbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为planbench，主要用于评估大型语言模型在规划和变化推理方面的能力。数据集包含多个任务配置，如计划生成、计划最优性、计划验证、计划泛化、计划执行、目标洗牌和全到部分等。每个任务配置都包含任务名称、提示类型、领域、实例ID、查询和真实计划等特征。数据集的总下载大小和数据集大小也分别列出。

The dataset, named planbench, is primarily used to evaluate the capabilities of large language models in planning and reasoning about change. It includes multiple task configurations such as plan generation, plan optimality, plan verification, plan generalization, plan execution, goal shuffling, and full to partial. Each task configuration contains features like task name, prompt type, domain, instance ID, query, and ground truth plan. The total download size and dataset size are also listed.

提供机构：

tasksource

原始信息汇总

数据集概述

数据集名称

planbench

数据集配置

配置名称：task_1_plan_generation

特征：
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
分割：
- train:
  - num_bytes: 8881960
  - num_examples: 2270
下载大小：1029517
数据集大小：8881960

配置名称：task_2_plan_optimality

特征：
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
分割：
- train:
  - num_bytes: 6414680
  - num_examples: 1692
下载大小：712125
数据集大小：6414680

配置名称：task_3_plan_verification

特征：
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- query: string
- ground_truth_plan: string
分割：
- train:
  - num_bytes: 8422076
  - num_examples: 1584
下载大小：1029705
数据集大小：8422076

配置名称：task_5_plan_generalization

特征：
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
分割：
- train:
  - num_bytes: 3867665
  - num_examples: 1112
下载大小：460015
数据集大小：3867665

配置名称：task_7_plan_execution

特征：
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: sequence[string]
分割：
- train:
  - num_bytes: 5007119
  - num_examples: 1485
下载大小：476580
数据集大小：5007119

配置名称：task_8_1_goal_shuffling

特征：
- task: string
- prompt_type: string
- domain: string
- query: string
- ground_truth_plan: string
- instance_id: int64
- single_goal_instances: int64
分割：
- train:
  - num_bytes: 5080244
  - num_examples: 1485
下载大小：572501
数据集大小：5080244

配置名称：task_8_2_full_to_partial

特征：
- task: string
- prompt_type: string
- domain: string
- query: string
- ground_truth_plan: string
- instance_id: int64
分割：
- train:
  - num_bytes: 5325135
  - num_examples: 1485
下载大小：615941
数据集大小：5325135

数据文件路径

task_1_plan_generation:
- train: task_1_plan_generation/train-*
task_2_plan_optimality:
- train: task_2_plan_optimality/train-*
task_3_plan_verification:
- train: task_3_plan_verification/train-*
task_5_plan_generalization:
- train: task_5_plan_generalization/train-*
task_7_plan_execution:
- train: task_7_plan_execution/train-*
task_8_1_goal_shuffling:
- train: task_8_1_goal_shuffling/train-*
task_8_2_full_to_partial:
- train: task_8_2_full_to_partial/train-*

搜集汇总

数据集介绍

构建方式

tasksource/planbench数据集的构建，是通过精心设计的多个子任务来评价大型语言模型在规划和推理方面的能力。该数据集包含了多个配置，每个配置针对不同的规划任务，例如计划生成、优化、验证、泛化、执行以及目标混淆等，旨在提供全面、细致的评估标准。数据集通过训练集的方式组织，每个训练集包含了任务描述、提示类型、领域、实例ID、查询以及真实计划等字段，确保了数据的一致性和可用性。

特点

该数据集的特点在于其多样性和综合性。它涵盖了规划任务的多个方面，使得研究者可以在不同的任务设置下评估模型的表现。此外，数据集的结构化设计使得模型训练和评估过程更加高效。各个配置之间的数据量和类型的不同，也提供了丰富的实验条件，有助于深入理解模型在不同规划任务中的性能差异。

使用方法

使用tasksource/planbench数据集时，研究者可以根据具体的研究需求选择相应的配置。数据集以训练集的形式提供，可以直接用于模型的训练和评估。每个配置包含了必要的字段，如任务描述、实例ID和真实计划等，以便于进行针对性的实验设计。用户可以通过下载对应配置的训练数据，利用其提供的字段来构建和优化模型，进而进行性能评估和比较。

背景与挑战

背景概述

在人工智能领域，规划与推理是核心的研究课题之一。tasksource/planbench数据集，创建于2024年，由Karthik Valmeekam、Matthew Marquez、Alberto Olmo、Sarath Sreedharan和Subbarao Kambhampati等研究人员共同开发。该数据集旨在评估大型语言模型在规划和推理方面的能力，特别是关于变化的问题。数据集包含了多个任务配置，如计划生成、计划优化性、计划验证、计划泛化、计划执行等，涵盖了从计划制定到执行的全过程，对人工智能领域的研究具有深远的影响力。

当前挑战

该数据集在构建过程中遇到的挑战主要包括如何准确捕捉和表述复杂的规划问题，以及如何设计有效的评估指标来衡量模型在规划任务中的表现。在研究领域问题上，planbench数据集面临的挑战是如何确保模型能够在不同领域和情境中生成有效、优化的计划，并能够适应环境的变化。此外，数据集的泛化能力和执行力的评估也是一项艰巨的任务，需要精确的标注和高效的算法支持。

常用场景

经典使用场景

在人工智能领域，规划与推理任务至关重要，tasksource/planbench数据集为此提供了丰富的实验基础。该数据集的经典使用场景在于评估大型语言模型在规划任务中的表现，尤其是在处理变化和不确定性时模型的适应能力。

解决学术问题

该数据集解决了学术研究中如何有效评估模型在规划任务上的表现问题，特别是在面对复杂、动态环境时模型的泛化能力、优化性和执行准确性。通过该数据集，研究者能够更加精确地定位模型在规划领域的不足之处，从而指导模型的改进。

衍生相关工作

基于tasksource/planbench数据集，研究者已经衍生出一系列相关工作，如探索模型在不同规划任务中的表现差异，研究模型在规划过程中的错误类型及其原因，以及开发新的评估指标以更全面地衡量模型的规划能力。这些工作进一步推动了规划领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集