PABU-Data

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/HunterJiang97/PABU-Data

下载链接

链接失效反馈

官方服务：

资源简介：

PABU数据集是一个用于训练和评估大型语言模型（LLM）代理的步级训练数据集，包含来自AgentGym基准测试中八个交互环境的交互数据。该数据集旨在支持PABU（Progress-Aware Belief Update）框架，其中代理不是以完整轨迹作为原子单位进行训练，而是在单个交互步骤的粒度上进行训练。每个步骤包括当前观察、代理动作、环境反馈和任务进度信号。数据集结构为交互步骤序列，支持步级训练，同时允许在需要时重建完整轨迹。数据集覆盖了八个不同的环境，包括MAZE、Wordle、ALFWorld、SciWorld、BabyAI、TextCraft、Weather和Movie，总计128,392个训练样本。数据集的语言为英语，遵循原始环境的许可证。

创建时间：

2026-02-11

原始信息汇总

PABU-Data 数据集概述

数据集基本信息

数据集名称: PABU-Data (Progress-Aware Belief Update Data)
维护者: Haitao Jiang
许可协议: MIT
任务类别: 问答
语言: 英语
数据集规模: 421,818,056 字节
下载大小: 35,119,164 字节
训练集样本数量: 128,392 个

数据集描述

该数据集包含从 AgentGym 基准测试中的八个交互式环境中收集的步骤级训练数据。它专为训练和评估通过顺序动作-观察交互进行操作的大语言模型智能体而设计。数据集用于PABU框架，其中智能体不是以完整轨迹作为原子单元进行训练，而是在单个交互步骤的粒度上进行训练。每个步骤包括当前观察、智能体动作、环境反馈和任务进度信号。这种结构支持学习紧凑的信念状态，选择性地保留信息丰富的过去交互，同时丢弃与任务无关的历史记录。训练轨迹在环境和方法之间共享，支持对信念更新策略进行受控比较。

数据集来源与构成

PABU 代码仓库: https://github.com/Hunter-Jiang/Progress-Aware-Belief-Update
数据涵盖八个环境，具有多样化的推理、规划和工具使用要求。统计数据在步骤级别报告。

环境	训练轨迹数	训练步骤数	评估轨迹数	原始代码仓库	环境服务器
MAZE	10	528	25	https://github.com/abdulhaim/LMRL-Gym	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym
Wordle	955	7,134	25	https://github.com/abdulhaim/LMRL-Gym	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-lmrlgym
ALFWorld	2,164	39,775	200	https://github.com/alfworld/alfworld	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-alfworld
SciWorld	1,986	63,855	200	https://github.com/allenai/ScienceWorld	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-sciworld
BabyAI	761	7,022	90	https://github.com/mila-iqia/babyai	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-babyai
TextCraft	374	5,084	100	https://github.com/archiki/ADaPT	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-textcraft
Weather	311	3,312	20	https://github.com/hkust-nlp/AgentBoard	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool
Movie	215	1,682	20	https://github.com/hkust-nlp/AgentBoard	https://github.com/WooooDyy/AgentGym/tree/main/agentenv-tool

数据集结构

数据特征

prompt (string): 提示
response (string): 响应
original (string): 原始内容
id (int64): 标识符
type (string): 类型
all (string): 全部内容
source (string): 来源
__index_level_0__ (int64): 索引级别

组织方式

数据集被组织为交互步骤的序列，而不是单一的轨迹。每个步骤通常包括：

当前观察（自然语言）
智能体动作（自然语言或结构化命令）
环境响应
任务进度信号（相对于上一步的进度）
情景和环境标识符步骤按时间顺序排列，并通过情景ID链接，允许在需要时重建完整轨迹，同时仍支持逐步训练。

主要用途

直接用途

使用步骤级监督训练基于LLM的智能体
学习用于长期决策的信念状态表示
研究历史压缩、记忆选择和进度感知推理
在固定轨迹下对智能体效率和任务完成度进行基准测试

超出范围的用途

安全关键或现实世界的决策系统

创建与注释

创建理由

创建此数据集是为了支持LLM智能体中高效信念更新的研究。先前的方法以完整的交互历史为条件，这些历史通常是冗余且成本高昂的。通过向智能体提供带有进度注释的步骤级数据，该数据集支持学习何时记住以及记住什么。

数据收集与处理

智能体使用文本动作与环境交互
所有交互在每一步都被记录
轨迹被分割成单独的步骤
进度信号相对于上一步进行计算
未对环境文本进行手动过滤或重写

注释过程

注释（例如，进度信号）是从环境状态转换和任务完成指标中自动导出的，并经过人工验证。

注意事项

偏见、风险与局限性

性能可能过度代表基于文本的推理能力
结果可能无法直接迁移到具身或现实世界环境中
进度信号是环境特定的，可能无法泛化

个人与敏感信息

该数据集未从原始来源引入更多个人、敏感或私人信息。所有交互都发生在合成或模拟环境中。

引用

@misc{jiang2026pabuprogressawarebeliefupdate, title={PABU: Progress-Aware Belief Update for Efficient LLM Agents}, author={Haitao Jiang and Lin Ge and Hengrui Cai and Rui Song}, year={2026}, eprint={2602.09138}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.09138}, }

搜集汇总

数据集介绍

构建方式

在智能体交互学习领域，PABU-Data的构建体现了对序列决策过程进行精细化建模的前沿思路。该数据集从AgentGym基准中的八个交互环境中系统采集数据，其核心创新在于以步骤级别而非完整轨迹作为基本单元。每个数据点均包含当前观察、智能体行动、环境反馈及任务进度信号，这些元素通过自动化流程从原始环境交互日志中提取并分割。进度标注通过环境状态转移与任务完成度指标自动计算生成，确保了数据在保持原始环境语义一致性的同时，为信念更新机制的研究提供了结构化支持。

特点

PABU-Data的显著特征在于其多环境覆盖与细粒度结构设计。数据集涵盖迷宫导航、词汇解谜、科学实验及工具使用等八类异质环境，共包含超过十二万条步骤级样本，体现了任务在推理、规划与操作需求上的多样性。其数据结构以自然语言观察与动作为核心，并附有步骤间的时序关联标识，使得既能支持以步骤为单位的训练，也能按需重构完整轨迹。这种设计为研究历史信息压缩、记忆选择及进度感知推理提供了可控且丰富的实验基础。

使用方法

该数据集主要应用于训练具备步骤级监督能力的大语言模型智能体，尤其侧重于高效信念状态表示的学习。使用者可通过加载数据集中的步骤序列，训练模型基于当前观察、行动历史及进度信号来更新紧凑的信念状态，从而优化长视野决策。在评估方面，数据集支持对固定轨迹下智能体效率与任务完成度的基准测试，研究者可跨环境比较不同信念更新策略的性能。需注意，其设计初衷在于促进算法研究，并不直接适用于安全关键或现实世界的决策系统。

背景与挑战

背景概述

在大型语言模型（LLM）智能体研究领域，如何高效处理长序列交互历史以进行决策，是一个核心难题。PABU-Data数据集由研究者Haitao Jiang等人于2026年构建，旨在支持PABU（Progress-Aware Belief Update）框架的研究。该数据集从AgentGym基准的八个交互环境中收集了细粒度的步骤级训练数据，涵盖迷宫导航、文字游戏、科学任务等多种场景。其核心研究问题聚焦于让智能体学习紧凑的信念状态，能够选择性保留历史交互中的关键信息，同时摒弃与任务无关的冗余内容，从而提升智能体在长视野任务中的推理与规划效率。这一数据集的发布为研究基于步骤监督的智能体训练、历史压缩与记忆选择机制提供了重要的实证基础。

当前挑战

该数据集致力于解决LLM智能体在长序列交互任务中信念状态更新的效率挑战。传统方法通常将完整交互轨迹作为原子单元进行处理，导致计算开销巨大且可能引入历史冗余。PABU-Data通过提供带有进度信号的步骤级数据，旨在帮助模型学会在何时记住以及记住什么，从而构建更高效的信念更新策略。在数据集构建过程中，挑战主要源于多环境数据的整合与标准化。需要从八个异构的交互环境中收集数据，并确保动作-观察接口的一致性，同时自动计算并验证跨环境的任务进度信号，这要求精心的工程设计与质量控制，以保障数据在支持可控比较研究时的可靠性与有效性。

常用场景

经典使用场景

在智能体研究领域，PABU-Data数据集为训练和评估基于大型语言模型的智能体提供了关键支持。该数据集通过整合八个交互式环境中的步骤级交互数据，使智能体能够在序列化的动作-观察循环中进行学习。其经典应用场景在于模拟智能体在复杂任务中的决策过程，例如在迷宫导航、文字游戏或科学实验环境中，智能体需要依据历史交互和任务进展信号来调整其信念状态，从而实现高效的任务完成。

解决学术问题

该数据集致力于解决智能体研究中的核心学术问题，即如何让智能体在长时程决策中有效管理历史信息。传统方法往往依赖完整的交互轨迹，导致计算冗余和效率低下。PABU-Data通过提供步骤级数据与进展注释，使智能体能够学习选择性保留关键历史信息，摒弃任务无关内容，从而推动了信念状态压缩、记忆选择机制以及进展感知推理等方面的研究，为构建更高效的智能体系统奠定了理论基础。

衍生相关工作

围绕PABU-Data数据集，已衍生出一系列经典研究工作，主要集中在高效信念更新框架的探索上。例如，PABU（Progress-Aware Belief Update）框架利用该数据集训练智能体学习紧凑的信念状态表示。相关研究进一步扩展到历史压缩算法、记忆网络设计以及跨环境泛化能力的评估，这些工作共同推动了智能体在长时程交互中的性能优化，并为后续基于步骤级监督的智能体训练范式提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集