tasksource/planbench
收藏Hugging Face2024-08-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/tasksource/planbench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为planbench,主要用于评估大型语言模型在规划和变化推理方面的能力。数据集包含多个任务配置,如计划生成、计划最优性、计划验证、计划泛化、计划执行、目标洗牌和全到部分等。每个任务配置都包含任务名称、提示类型、领域、实例ID、查询和真实计划等特征。数据集的总下载大小和数据集大小也分别列出。
The dataset, named planbench, is primarily used to evaluate the capabilities of large language models in planning and reasoning about change. It includes multiple task configurations such as plan generation, plan optimality, plan verification, plan generalization, plan execution, goal shuffling, and full to partial. Each task configuration contains features like task name, prompt type, domain, instance ID, query, and ground truth plan. The total download size and dataset size are also listed.
提供机构:
tasksource
原始信息汇总
数据集概述
数据集名称
- planbench
数据集配置
配置名称:task_1_plan_generation
- 特征:
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
- 分割:
- train:
- num_bytes: 8881960
- num_examples: 2270
- train:
- 下载大小:1029517
- 数据集大小:8881960
配置名称:task_2_plan_optimality
- 特征:
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
- 分割:
- train:
- num_bytes: 6414680
- num_examples: 1692
- train:
- 下载大小:712125
- 数据集大小:6414680
配置名称:task_3_plan_verification
- 特征:
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- query: string
- ground_truth_plan: string
- 分割:
- train:
- num_bytes: 8422076
- num_examples: 1584
- train:
- 下载大小:1029705
- 数据集大小:8422076
配置名称:task_5_plan_generalization
- 特征:
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: string
- 分割:
- train:
- num_bytes: 3867665
- num_examples: 1112
- train:
- 下载大小:460015
- 数据集大小:3867665
配置名称:task_7_plan_execution
- 特征:
- task: string
- prompt_type: string
- domain: string
- instance_id: int64
- example_instance_ids: sequence[int64]
- query: string
- ground_truth_plan: sequence[string]
- 分割:
- train:
- num_bytes: 5007119
- num_examples: 1485
- train:
- 下载大小:476580
- 数据集大小:5007119
配置名称:task_8_1_goal_shuffling
- 特征:
- task: string
- prompt_type: string
- domain: string
- query: string
- ground_truth_plan: string
- instance_id: int64
- single_goal_instances: int64
- 分割:
- train:
- num_bytes: 5080244
- num_examples: 1485
- train:
- 下载大小:572501
- 数据集大小:5080244
配置名称:task_8_2_full_to_partial
- 特征:
- task: string
- prompt_type: string
- domain: string
- query: string
- ground_truth_plan: string
- instance_id: int64
- 分割:
- train:
- num_bytes: 5325135
- num_examples: 1485
- train:
- 下载大小:615941
- 数据集大小:5325135
数据文件路径
- task_1_plan_generation:
- train: task_1_plan_generation/train-*
- task_2_plan_optimality:
- train: task_2_plan_optimality/train-*
- task_3_plan_verification:
- train: task_3_plan_verification/train-*
- task_5_plan_generalization:
- train: task_5_plan_generalization/train-*
- task_7_plan_execution:
- train: task_7_plan_execution/train-*
- task_8_1_goal_shuffling:
- train: task_8_1_goal_shuffling/train-*
- task_8_2_full_to_partial:
- train: task_8_2_full_to_partial/train-*
搜集汇总
数据集介绍

构建方式
tasksource/planbench数据集的构建,是通过精心设计的多个子任务来评价大型语言模型在规划和推理方面的能力。该数据集包含了多个配置,每个配置针对不同的规划任务,例如计划生成、优化、验证、泛化、执行以及目标混淆等,旨在提供全面、细致的评估标准。数据集通过训练集的方式组织,每个训练集包含了任务描述、提示类型、领域、实例ID、查询以及真实计划等字段,确保了数据的一致性和可用性。
特点
该数据集的特点在于其多样性和综合性。它涵盖了规划任务的多个方面,使得研究者可以在不同的任务设置下评估模型的表现。此外,数据集的结构化设计使得模型训练和评估过程更加高效。各个配置之间的数据量和类型的不同,也提供了丰富的实验条件,有助于深入理解模型在不同规划任务中的性能差异。
使用方法
使用tasksource/planbench数据集时,研究者可以根据具体的研究需求选择相应的配置。数据集以训练集的形式提供,可以直接用于模型的训练和评估。每个配置包含了必要的字段,如任务描述、实例ID和真实计划等,以便于进行针对性的实验设计。用户可以通过下载对应配置的训练数据,利用其提供的字段来构建和优化模型,进而进行性能评估和比较。
背景与挑战
背景概述
在人工智能领域,规划与推理是核心的研究课题之一。tasksource/planbench数据集,创建于2024年,由Karthik Valmeekam、Matthew Marquez、Alberto Olmo、Sarath Sreedharan和Subbarao Kambhampati等研究人员共同开发。该数据集旨在评估大型语言模型在规划和推理方面的能力,特别是关于变化的问题。数据集包含了多个任务配置,如计划生成、计划优化性、计划验证、计划泛化、计划执行等,涵盖了从计划制定到执行的全过程,对人工智能领域的研究具有深远的影响力。
当前挑战
该数据集在构建过程中遇到的挑战主要包括如何准确捕捉和表述复杂的规划问题,以及如何设计有效的评估指标来衡量模型在规划任务中的表现。在研究领域问题上,planbench数据集面临的挑战是如何确保模型能够在不同领域和情境中生成有效、优化的计划,并能够适应环境的变化。此外,数据集的泛化能力和执行力的评估也是一项艰巨的任务,需要精确的标注和高效的算法支持。
常用场景
经典使用场景
在人工智能领域,规划与推理任务至关重要,tasksource/planbench数据集为此提供了丰富的实验基础。该数据集的经典使用场景在于评估大型语言模型在规划任务中的表现,尤其是在处理变化和不确定性时模型的适应能力。
解决学术问题
该数据集解决了学术研究中如何有效评估模型在规划任务上的表现问题,特别是在面对复杂、动态环境时模型的泛化能力、优化性和执行准确性。通过该数据集,研究者能够更加精确地定位模型在规划领域的不足之处,从而指导模型的改进。
衍生相关工作
基于tasksource/planbench数据集,研究者已经衍生出一系列相关工作,如探索模型在不同规划任务中的表现差异,研究模型在规划过程中的错误类型及其原因,以及开发新的评估指标以更全面地衡量模型的规划能力。这些工作进一步推动了规划领域的研究进展。
以上内容由遇见数据集搜集并总结生成



