TextWorldCookAgent-Hard

Hugging Face2026-03-27 更新2026-03-28 收录

下载链接：

https://huggingface.co/datasets/YukinoshitaYukino/TextWorldCookAgent-Hard

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含游戏环境交互相关的结构化数据，主要特征包括：提示文本(prompt)、环境ID(env_id)、游戏种子(game_seed)、预热动作序列(warm_actions)、最大步数(max_steps)、通关指南(walkthrough)、指南长度(walkthrough_len)、组ID(group_id)和线程ID(thread_id)。数据集仅包含测试集(test split)，共400个样本，总大小约1.3MB。数据格式包含JSON列表和基本数据类型，适用于游戏AI训练、交互式任务学习等场景。

创建时间：

2026-03-26

搜集汇总

数据集介绍

构建方式

在交互式文本游戏领域，TextWorldCookAgent-Hard数据集通过精心设计的烹饪任务环境构建而成。该数据集采用结构化生成方法，每个任务实例均包含初始提示、环境标识符、游戏种子以及预定义的热身动作序列。数据生成过程融合了多样化的游戏种子和线程标识符，确保任务场景的丰富性和可复现性。数据集通过多个配置版本呈现，每个版本对应不同的任务复杂度，例如hard-6t、hard-8t和hard-12t分别代表不同线程数量的挑战性任务集合。

特点

TextWorldCookAgent-Hard数据集展现出显著的多维度特征，其核心在于高度结构化的交互式任务设计。数据集每个实例均包含完整的对话历史记录，其中提示字段采用嵌套的JSON结构，详细记载了角色名称、对话内容及工具调用信息。任务设计包含明确的最大步数限制和标准操作流程，为智能体行为评估提供精确的基准。数据集的层次化组织方式通过组别标识符和线程标识符实现，使得任务之间既保持独立性又具备可追溯的关联性。

使用方法

该数据集主要应用于烹饪任务导向的智能体能力评估，研究人员可通过加载不同配置版本进行多维度实验。使用过程中需重点关注提示字段的结构化解析，其中包含的角色对话历史和工具调用序列为智能体决策提供上下文依据。标准操作流程字段可作为性能评估的参考基准，而最大步数限制则为任务完成效率提供量化指标。数据集支持基于环境标识符和游戏种子的任务复现，便于进行对比实验和结果验证。

背景与挑战

背景概述

TextWorldCookAgent-Hard数据集诞生于人工智能代理研究蓬勃发展的时代，旨在评估智能体在复杂文本交互环境中的规划与执行能力。该数据集由专注于交互式人工智能的研究团队构建，其核心研究问题聚焦于多步骤任务规划、工具调用以及长期指令遵循的挑战。通过模拟烹饪任务等日常场景，该数据集为评估大型语言模型作为智能代理的实用性提供了标准化的测试平台，推动了具身智能与任务导向对话系统的前沿探索。

当前挑战

该数据集致力于解决智能代理在开放域、多步骤工具使用任务中面临的严峻挑战，包括对长程规划、状态跟踪以及精确工具调用的高阶要求。在构建过程中，研究者需设计高度结构化且语义丰富的交互环境，确保任务难度具有足够的区分度，同时生成高质量、无歧义的黄金标准执行轨迹（walkthrough），以支撑对智能体性能的可靠评估。

常用场景

经典使用场景

在具身智能与交互式任务规划领域，TextWorldCookAgent-Hard数据集被广泛用于评估智能体在复杂烹饪环境中的多步推理与工具调用能力。该数据集通过模拟逼真的厨房场景，要求智能体依据自然语言指令执行一系列烹饪动作，如切菜、加热或混合食材，从而检验其长期规划与动态环境适应性能。这种设置不仅强化了智能体对工具序列的掌握，还推动了其在开放世界任务中的泛化研究。

衍生相关工作

基于该数据集，学术界衍生出多项经典研究工作，例如针对工具调用优化的强化学习框架、结合大语言模型的指令跟随智能体，以及多智能体协作烹饪任务的设计。这些工作不仅扩展了数据集的评估维度，还推动了具身人工智能在规划、决策与交互方面的理论进展，为后续更复杂的仿真环境构建奠定了坚实基础。

数据集最近研究