alfworld-prompts

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/awawa-agi/alfworld-prompts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了游戏中的对话和奖励指标等信息的记录。具体特征包括：唯一标识符id，对话信息messages，奖励指标reward_metrics（包括有效动作、无效命令次数和阶段通过情况），回合奖励指标turn_reward_metrics（包括回合格式和有效动作），游戏配置mcp_config（包括服务器配置server_configs和工具限制tool_limits），任务类型task_type，游戏文件路径game_file_path和原始游戏内容original_game_content。数据集分为训练集train，分布内评估集eval_in_distribution和分布外评估集eval_out_of_distribution。

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

数据集名称: awawa-agi/alfworld-prompts
下载大小: 105245803字节
数据集大小: 376951144字节

数据集结构

特征

id: 字符串类型
messages: 字符串类型
reward_metrics: 结构体
- alfworld.has_valid_action: 浮点型
- alfworld.invalid_command_count: 浮点型
- alfworld.stage_passed: 浮点型
turn_reward_metrics: 结构体
- alfworld.turn_format: 浮点型
- alfworld.valid_action: 浮点型
mcp_config: 结构体
- server_configs: 列表
  - mcpServers: 结构体
    - alfworld: 结构体
      - args: 字符串列表
      - command: 字符串类型
      - env: 结构体
        
        ALFWORLD_GAME_CONTENT_COMPRESSED: 字符串类型
- tool_limits: 结构体
  - alfworld:action: 整型
task_type: 字符串类型
game_file_path: 字符串类型
original_game_content: 字符串类型

数据划分

train: 3553个样本，349310140字节
eval_in_distribution: 140个样本，13908978字节
eval_out_of_distribution: 134个样本，13732026字节

配置文件

config_name: default
data_files:
- train: data/train-*
- eval_in_distribution: data/eval_in_distribution-*
- eval_out_of_distribution: data/eval_out_of_distribution-*

搜集汇总

数据集介绍

构建方式

在交互式人工智能研究领域，alfworld-prompts数据集的构建采用了多维度标注方法，通过结构化字段记录智能体与环境交互的全过程。数据集包含3,553个训练样本和274个评估样本，划分为分布内和分布外测试集以验证模型泛化能力。每个样本均包含原始游戏内容、任务类型标识及细粒度的奖励指标，其中奖励系统通过valid_action、invalid_command_count等7个维度量化智能体行为。技术实现上采用MCP服务器架构，配置了ALFWORLD_GAME_CONTENT_COMPRESSED环境变量以确保游戏内容的标准化传输。

特点

该数据集最显著的特点是采用三维评估体系：任务完成度、动作有效性和指令规范性。游戏文件路径与原始内容双字段存储既保留环境上下文又支持内容验证，turn_reward_metrics结构体实现分步奖励追踪，为强化学习提供即时反馈。特别设计的分布外评估集包含134个样本，专门用于测试模型在未见任务上的适应能力。数据字段间形成有机联系，如mcp_config中的工具限制参数与reward_metrics存在约束关系，构成闭环验证机制。

使用方法

使用该数据集时，研究者可通过task_type字段筛选特定任务场景，利用game_file_path快速定位游戏资源。训练阶段建议结合turn_reward_metrics进行分步策略优化，eval_out_of_distribution_split适用于模型鲁棒性测试。原始游戏内容字段支持环境重建，而压缩后的ALFWORLD_GAME_CONTENT_COMPRESSED确保高效传输。奖励指标的7个维度允许定制化加权，为不同研究方向提供灵活评估框架。注意服务器配置中的action限制参数将直接影响智能体的决策空间设计。

背景与挑战

背景概述

ALFWorld-Prompts数据集由人工智能研究团队开发，旨在推动具身智能体在复杂交互环境中的学习能力。该数据集构建于ALFWorld模拟平台之上，专注于多模态指令理解和任务导向型对话系统的研究。数据集通过模拟家居环境中的日常任务，为智能体提供丰富的交互式学习场景，涵盖了物品搜索、对象操作等多样化任务类型。其创新性在于将文本指令与虚拟环境动作执行相结合，为研究语言理解与行动规划的协同机制提供了重要实验平台。

当前挑战

该数据集面临的核心挑战体现在环境复杂性与任务多样性之间的平衡。虚拟环境中动态变化的物体状态和空间关系要求智能体具备持续的场景理解能力，而多步骤任务的规划执行则需要有效的长期记忆机制。数据采集过程中，确保指令与动作的精确对齐存在技术难度，动作有效性的评估标准也需考虑环境反馈的即时性。分布外评估的设置进一步增加了对模型泛化能力的考验，要求算法能够适应训练数据未覆盖的新颖任务场景。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域，alfworld-prompts数据集为研究者提供了一个模拟环境，用于训练和评估智能体在复杂任务中的表现。该数据集通过模拟真实世界的交互场景，使智能体能够理解和执行自然语言指令，从而完成特定任务。经典使用场景包括智能体在虚拟环境中的导航、物体操作以及与环境的交互，这些场景为研究智能体的决策能力和语言理解能力提供了重要平台。

实际应用

在实际应用中，alfworld-prompts数据集被广泛用于开发智能助手和机器人控制系统。通过模拟家庭环境中的日常任务，如整理房间或寻找物品，智能体可以在虚拟环境中进行训练，随后将学到的技能迁移到现实世界。这种应用不仅提高了智能体的任务执行效率，还降低了实际部署中的试错成本。数据集的实际价值在于其能够为智能体提供多样化的训练场景，从而提升其在真实环境中的适应能力。

衍生相关工作

基于alfworld-prompts数据集，研究者们开发了一系列经典工作，包括多模态强化学习框架和任务导向的对话系统。这些工作通过结合视觉和语言信息，进一步提升了智能体在复杂环境中的表现。例如，一些研究利用该数据集探索了智能体在部分可观测环境中的决策能力，而另一些研究则专注于优化自然语言指令的生成和理解。这些衍生工作不仅拓展了数据集的应用范围，还为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集