PABU-Data
收藏PABU-Data 数据集概述
数据集基本信息
- 数据集名称: PABU-Data (Progress-Aware Belief Update Data)
- 维护者: Haitao Jiang
- 许可协议: MIT
- 任务类别: 问答
- 语言: 英语
- 数据集规模: 421,818,056 字节
- 下载大小: 35,119,164 字节
- 训练集样本数量: 128,392 个
数据集描述
该数据集包含从 AgentGym 基准测试中的八个交互式环境中收集的步骤级训练数据。它专为训练和评估通过顺序动作-观察交互进行操作的大语言模型智能体而设计。数据集用于PABU框架,其中智能体不是以完整轨迹作为原子单元进行训练,而是在单个交互步骤的粒度上进行训练。每个步骤包括当前观察、智能体动作、环境反馈和任务进度信号。这种结构支持学习紧凑的信念状态,选择性地保留信息丰富的过去交互,同时丢弃与任务无关的历史记录。训练轨迹在环境和方法之间共享,支持对信念更新策略进行受控比较。
数据集来源与构成
- PABU 代码仓库: https://github.com/Hunter-Jiang/Progress-Aware-Belief-Update
- 数据涵盖八个环境,具有多样化的推理、规划和工具使用要求。统计数据在步骤级别报告。
| 环境 | 训练轨迹数 | 训练步骤数 | 评估轨迹数 | 原始代码仓库 | 环境服务器 |
|---|---|---|---|---|---|
| MAZE | 10 | 528 | 25 | https://github.com/abdulhaim/LMRL-Gym | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym |
| Wordle | 955 | 7,134 | 25 | https://github.com/abdulhaim/LMRL-Gym | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym |
| ALFWorld | 2,164 | 39,775 | 200 | https://github.com/alfworld/alfworld | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-alfworld |
| SciWorld | 1,986 | 63,855 | 200 | https://github.com/allenai/ScienceWorld | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-sciworld |
| BabyAI | 761 | 7,022 | 90 | https://github.com/mila-iqia/babyai | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-babyai |
| TextCraft | 374 | 5,084 | 100 | https://github.com/archiki/ADaPT | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-textcraft |
| Weather | 311 | 3,312 | 20 | https://github.com/hkust-nlp/AgentBoard | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool |
| Movie | 215 | 1,682 | 20 | https://github.com/hkust-nlp/AgentBoard | https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool |
数据集结构
数据特征
prompt(string): 提示response(string): 响应original(string): 原始内容id(int64): 标识符type(string): 类型all(string): 全部内容source(string): 来源__index_level_0__(int64): 索引级别
组织方式
数据集被组织为交互步骤的序列,而不是单一的轨迹。每个步骤通常包括:
- 当前观察(自然语言)
- 智能体动作(自然语言或结构化命令)
- 环境响应
- 任务进度信号(相对于上一步的进度)
- 情景和环境标识符 步骤按时间顺序排列,并通过情景ID链接,允许在需要时重建完整轨迹,同时仍支持逐步训练。
主要用途
直接用途
- 使用步骤级监督训练基于LLM的智能体
- 学习用于长期决策的信念状态表示
- 研究历史压缩、记忆选择和进度感知推理
- 在固定轨迹下对智能体效率和任务完成度进行基准测试
超出范围的用途
- 安全关键或现实世界的决策系统
创建与注释
创建理由
创建此数据集是为了支持LLM智能体中高效信念更新的研究。先前的方法以完整的交互历史为条件,这些历史通常是冗余且成本高昂的。通过向智能体提供带有进度注释的步骤级数据,该数据集支持学习何时记住以及记住什么。
数据收集与处理
- 智能体使用文本动作与环境交互
- 所有交互在每一步都被记录
- 轨迹被分割成单独的步骤
- 进度信号相对于上一步进行计算
- 未对环境文本进行手动过滤或重写
注释过程
注释(例如,进度信号)是从环境状态转换和任务完成指标中自动导出的,并经过人工验证。
注意事项
偏见、风险与局限性
- 性能可能过度代表基于文本的推理能力
- 结果可能无法直接迁移到具身或现实世界环境中
- 进度信号是环境特定的,可能无法泛化
个人与敏感信息
该数据集未从原始来源引入更多个人、敏感或私人信息。所有交互都发生在合成或模拟环境中。
引用
@misc{jiang2026pabuprogressawarebeliefupdate, title={PABU: Progress-Aware Belief Update for Efficient LLM Agents}, author={Haitao Jiang and Lin Ge and Hengrui Cai and Rui Song}, year={2026}, eprint={2602.09138}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.09138}, }




