five

PABU-Data

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/HunterJiang97/PABU-Data
下载链接
链接失效反馈
官方服务:
资源简介:
PABU数据集是一个用于训练和评估大型语言模型(LLM)代理的步级训练数据集,包含来自AgentGym基准测试中八个交互环境的交互数据。该数据集旨在支持PABU(Progress-Aware Belief Update)框架,其中代理不是以完整轨迹作为原子单位进行训练,而是在单个交互步骤的粒度上进行训练。每个步骤包括当前观察、代理动作、环境反馈和任务进度信号。数据集结构为交互步骤序列,支持步级训练,同时允许在需要时重建完整轨迹。数据集覆盖了八个不同的环境,包括MAZE、Wordle、ALFWorld、SciWorld、BabyAI、TextCraft、Weather和Movie,总计128,392个训练样本。数据集的语言为英语,遵循原始环境的许可证。
创建时间:
2026-02-11
原始信息汇总

PABU-Data 数据集概述

数据集基本信息

  • 数据集名称: PABU-Data (Progress-Aware Belief Update Data)
  • 维护者: Haitao Jiang
  • 许可协议: MIT
  • 任务类别: 问答
  • 语言: 英语
  • 数据集规模: 421,818,056 字节
  • 下载大小: 35,119,164 字节
  • 训练集样本数量: 128,392 个

数据集描述

该数据集包含从 AgentGym 基准测试中的八个交互式环境中收集的步骤级训练数据。它专为训练和评估通过顺序动作-观察交互进行操作的大语言模型智能体而设计。数据集用于PABU框架,其中智能体不是以完整轨迹作为原子单元进行训练,而是在单个交互步骤的粒度上进行训练。每个步骤包括当前观察、智能体动作、环境反馈和任务进度信号。这种结构支持学习紧凑的信念状态,选择性地保留信息丰富的过去交互,同时丢弃与任务无关的历史记录。训练轨迹在环境和方法之间共享,支持对信念更新策略进行受控比较。

数据集来源与构成

  • PABU 代码仓库: https://github.com/Hunter-Jiang/Progress-Aware-Belief-Update
  • 数据涵盖八个环境,具有多样化的推理、规划和工具使用要求。统计数据在步骤级别报告。
环境 训练轨迹数 训练步骤数 评估轨迹数 原始代码仓库 环境服务器
MAZE 10 528 25 https://github.com/abdulhaim/LMRL-Gym https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym
Wordle 955 7,134 25 https://github.com/abdulhaim/LMRL-Gym https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym
ALFWorld 2,164 39,775 200 https://github.com/alfworld/alfworld https://github.com/WooooDyy/AgentGym/tree/main/agentenv-alfworld
SciWorld 1,986 63,855 200 https://github.com/allenai/ScienceWorld https://github.com/WooooDyy/AgentGym/tree/main/agentenv-sciworld
BabyAI 761 7,022 90 https://github.com/mila-iqia/babyai https://github.com/WooooDyy/AgentGym/tree/main/agentenv-babyai
TextCraft 374 5,084 100 https://github.com/archiki/ADaPT https://github.com/WooooDyy/AgentGym/tree/main/agentenv-textcraft
Weather 311 3,312 20 https://github.com/hkust-nlp/AgentBoard https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool
Movie 215 1,682 20 https://github.com/hkust-nlp/AgentBoard https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool

数据集结构

数据特征

  • prompt (string): 提示
  • response (string): 响应
  • original (string): 原始内容
  • id (int64): 标识符
  • type (string): 类型
  • all (string): 全部内容
  • source (string): 来源
  • __index_level_0__ (int64): 索引级别

组织方式

数据集被组织为交互步骤的序列,而不是单一的轨迹。每个步骤通常包括:

  • 当前观察(自然语言)
  • 智能体动作(自然语言或结构化命令)
  • 环境响应
  • 任务进度信号(相对于上一步的进度)
  • 情景和环境标识符 步骤按时间顺序排列,并通过情景ID链接,允许在需要时重建完整轨迹,同时仍支持逐步训练。

主要用途

直接用途

  • 使用步骤级监督训练基于LLM的智能体
  • 学习用于长期决策的信念状态表示
  • 研究历史压缩、记忆选择和进度感知推理
  • 在固定轨迹下对智能体效率和任务完成度进行基准测试

超出范围的用途

  • 安全关键或现实世界的决策系统

创建与注释

创建理由

创建此数据集是为了支持LLM智能体中高效信念更新的研究。先前的方法以完整的交互历史为条件,这些历史通常是冗余且成本高昂的。通过向智能体提供带有进度注释的步骤级数据,该数据集支持学习何时记住以及记住什么。

数据收集与处理

  • 智能体使用文本动作与环境交互
  • 所有交互在每一步都被记录
  • 轨迹被分割成单独的步骤
  • 进度信号相对于上一步进行计算
  • 未对环境文本进行手动过滤或重写

注释过程

注释(例如,进度信号)是从环境状态转换和任务完成指标中自动导出的,并经过人工验证。

注意事项

偏见、风险与局限性

  • 性能可能过度代表基于文本的推理能力
  • 结果可能无法直接迁移到具身或现实世界环境中
  • 进度信号是环境特定的,可能无法泛化

个人与敏感信息

该数据集从原始来源引入更多个人、敏感或私人信息。所有交互都发生在合成或模拟环境中。

引用

@misc{jiang2026pabuprogressawarebeliefupdate, title={PABU: Progress-Aware Belief Update for Efficient LLM Agents}, author={Haitao Jiang and Lin Ge and Hengrui Cai and Rui Song}, year={2026}, eprint={2602.09138}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.09138}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在智能体交互学习领域,PABU-Data的构建体现了对序列决策过程进行精细化建模的前沿思路。该数据集从AgentGym基准中的八个交互环境中系统采集数据,其核心创新在于以步骤级别而非完整轨迹作为基本单元。每个数据点均包含当前观察、智能体行动、环境反馈及任务进度信号,这些元素通过自动化流程从原始环境交互日志中提取并分割。进度标注通过环境状态转移与任务完成度指标自动计算生成,确保了数据在保持原始环境语义一致性的同时,为信念更新机制的研究提供了结构化支持。
特点
PABU-Data的显著特征在于其多环境覆盖与细粒度结构设计。数据集涵盖迷宫导航、词汇解谜、科学实验及工具使用等八类异质环境,共包含超过十二万条步骤级样本,体现了任务在推理、规划与操作需求上的多样性。其数据结构以自然语言观察与动作为核心,并附有步骤间的时序关联标识,使得既能支持以步骤为单位的训练,也能按需重构完整轨迹。这种设计为研究历史信息压缩、记忆选择及进度感知推理提供了可控且丰富的实验基础。
使用方法
该数据集主要应用于训练具备步骤级监督能力的大语言模型智能体,尤其侧重于高效信念状态表示的学习。使用者可通过加载数据集中的步骤序列,训练模型基于当前观察、行动历史及进度信号来更新紧凑的信念状态,从而优化长视野决策。在评估方面,数据集支持对固定轨迹下智能体效率与任务完成度的基准测试,研究者可跨环境比较不同信念更新策略的性能。需注意,其设计初衷在于促进算法研究,并不直接适用于安全关键或现实世界的决策系统。
背景与挑战
背景概述
在大型语言模型(LLM)智能体研究领域,如何高效处理长序列交互历史以进行决策,是一个核心难题。PABU-Data数据集由研究者Haitao Jiang等人于2026年构建,旨在支持PABU(Progress-Aware Belief Update)框架的研究。该数据集从AgentGym基准的八个交互环境中收集了细粒度的步骤级训练数据,涵盖迷宫导航、文字游戏、科学任务等多种场景。其核心研究问题聚焦于让智能体学习紧凑的信念状态,能够选择性保留历史交互中的关键信息,同时摒弃与任务无关的冗余内容,从而提升智能体在长视野任务中的推理与规划效率。这一数据集的发布为研究基于步骤监督的智能体训练、历史压缩与记忆选择机制提供了重要的实证基础。
当前挑战
该数据集致力于解决LLM智能体在长序列交互任务中信念状态更新的效率挑战。传统方法通常将完整交互轨迹作为原子单元进行处理,导致计算开销巨大且可能引入历史冗余。PABU-Data通过提供带有进度信号的步骤级数据,旨在帮助模型学会在何时记住以及记住什么,从而构建更高效的信念更新策略。在数据集构建过程中,挑战主要源于多环境数据的整合与标准化。需要从八个异构的交互环境中收集数据,并确保动作-观察接口的一致性,同时自动计算并验证跨环境的任务进度信号,这要求精心的工程设计与质量控制,以保障数据在支持可控比较研究时的可靠性与有效性。
常用场景
经典使用场景
在智能体研究领域,PABU-Data数据集为训练和评估基于大型语言模型的智能体提供了关键支持。该数据集通过整合八个交互式环境中的步骤级交互数据,使智能体能够在序列化的动作-观察循环中进行学习。其经典应用场景在于模拟智能体在复杂任务中的决策过程,例如在迷宫导航、文字游戏或科学实验环境中,智能体需要依据历史交互和任务进展信号来调整其信念状态,从而实现高效的任务完成。
解决学术问题
该数据集致力于解决智能体研究中的核心学术问题,即如何让智能体在长时程决策中有效管理历史信息。传统方法往往依赖完整的交互轨迹,导致计算冗余和效率低下。PABU-Data通过提供步骤级数据与进展注释,使智能体能够学习选择性保留关键历史信息,摒弃任务无关内容,从而推动了信念状态压缩、记忆选择机制以及进展感知推理等方面的研究,为构建更高效的智能体系统奠定了理论基础。
衍生相关工作
围绕PABU-Data数据集,已衍生出一系列经典研究工作,主要集中在高效信念更新框架的探索上。例如,PABU(Progress-Aware Belief Update)框架利用该数据集训练智能体学习紧凑的信念状态表示。相关研究进一步扩展到历史压缩算法、记忆网络设计以及跨环境泛化能力的评估,这些工作共同推动了智能体在长时程交互中的性能优化,并为后续基于步骤级监督的智能体训练范式提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作