alfworld-prompts-emt

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/af-rl/alfworld-prompts-emt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如唯一标识符id，消息内容messages，奖励指标reward_metrics（包括有效行动、无效命令数量、轮数、得分和阶段通过情况），每轮奖励指标turn_reward_metrics（包括思考格式和工具格式），MCP配置信息mcp_config（包括服务器配置和工具限制），任务类型task_type，游戏文件路径game_file_path，以及原始游戏内容original_game_content。数据集分为训练集、分布内评估集和分布外评估集，分别包含3553、140和134个示例。

创建时间：

2025-07-26

原始信息汇总

数据集概述

基本信息

数据集名称: af-rl/alfworld-prompts-emt
下载大小: 105245329字节
数据集大小: 376300542字节

数据集特征

id: 字符串类型，唯一标识符
messages: 字符串类型，消息内容
reward_metrics: 结构体，包含以下字段：
- alfworld.has_valid_action: 浮点型
- alfworld.invalid_command_count: 浮点型
- alfworld.num_turns: 浮点型
- alfworld.score: 浮点型
- alfworld.stage_passed: 浮点型
turn_reward_metrics: 结构体，包含以下字段：
- alfworld.thinking_format: 浮点型
- alfworld.tool_format: 浮点型
mcp_config: 结构体，包含以下字段：
- server_configs: 列表，包含mcpServers结构体
  - alfworld: 结构体，包含args（字符串列表）、command（字符串类型）、env（结构体，包含ALFWORLD_GAME_CONTENT_COMPRESSED字段）
- tool_limits: 结构体，包含alfworld:action字段（整型）
task_type: 字符串类型
game_file_path: 字符串类型
original_game_content: 字符串类型

数据集划分

train:
- 样本数量: 3553
- 大小: 348706118字节
eval_in_distribution:
- 样本数量: 140
- 大小: 13885178字节
eval_out_of_distribution:
- 样本数量: 134
- 大小: 13709246字节

搜集汇总

数据集介绍

构建方式

在交互式人工智能研究领域，alfworld-prompts-emt数据集通过精心设计的实验框架构建而成。该数据集采集了3553个训练样本和274个评估样本，采用结构化数据存储方式，包含游戏文件路径、原始游戏内容等核心字段。特别值得注意的是，数据集通过MCP服务器配置实现了对AlfWorld游戏环境的精确控制，并记录了包括有效动作数、无效指令数等在内的多维奖励指标，为研究提供了丰富的交互行为数据。

特点

alfworld-prompts-emt数据集展现出鲜明的多模态特征，其结构化奖励指标系统可量化评估智能体在AlfWorld环境中的表现。数据样本包含详细的回合制交互记录，通过thinking_format和tool_format等独特字段捕捉决策过程。数据集特别设计了分布内外双重评估机制，包含140个分布内样本和134个分布外样本，有效支持模型泛化能力研究。游戏内容压缩存储方案在保证数据完整性的同时优化了存储效率。

使用方法

该数据集适用于训练和评估交互式AI系统在文本环境中的决策能力。研究人员可通过解析messages字段获取对话上下文，利用reward_metrics分析智能体行为表现。数据集提供的MCP服务器配置支持实验环境复现，game_file_path字段便于定位原始游戏场景。建议采用分阶段评估策略，先在分布内数据验证基础性能，再通过分布外数据测试泛化能力。turn_reward_metrics中的思维格式指标为分析决策过程提供了独特视角。

背景与挑战

背景概述

alfworld-prompts-emt数据集是面向强化学习与自然语言处理交叉领域的重要资源，由人工智能研究团队开发，旨在探索多模态智能体在复杂交互环境中的决策能力。该数据集构建于ALFWorld模拟框架之上，通过丰富的游戏化场景将语言指令与动作执行紧密结合，为解决具身智能体在开放世界中的任务规划问题提供了标准化测试平台。其核心价值在于量化评估智能体在文本理解、工具使用及多步推理等方面的综合表现，为可解释性强化学习算法的发展奠定了数据基础。

当前挑战

该数据集面临的领域挑战主要体现为开放域指令理解的组合性难题，智能体需同时处理对象属性识别、空间关系推理及动作序列规划等异构子任务。构建过程中的技术挑战包括：游戏状态与自然语言提示的精准对齐、多维度奖励信号的量化设计，以及分布内外评估场景的边界划分。动态环境下的长程依赖建模和稀疏奖励问题进一步增加了数据标注与质量控制的复杂度，要求设计者平衡仿真环境的丰富性与评估指标的鲁棒性。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域，alfworld-prompts-emt数据集为研究者提供了一个模拟环境，用于训练和评估智能体在复杂任务中的表现。该数据集通过模拟真实世界的交互场景，使智能体能够理解和执行多步骤指令，从而在虚拟环境中完成特定任务。

实际应用

在实际应用中，alfworld-prompts-emt数据集可被用于开发虚拟助手、游戏AI以及自动化任务执行系统。其丰富的交互场景和任务类型为智能体在真实环境中的适应性提供了可靠的测试平台。

衍生相关工作

基于该数据集，研究者们开发了一系列强化学习模型和自然语言处理算法，例如多模态任务规划框架和基于奖励优化的智能体训练方法。这些工作进一步拓展了数据集在学术与工业界的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集