uyffg/auto-dreamer
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/uyffg/auto-dreamer
下载链接
链接失效反馈官方服务:
资源简介:
auto-dreamer Traces数据集包含了三个文本游戏环境(alfworld、sciworld、crafter)的轨迹和内存写入器输出,这些数据是作为auto-dreamer memory-RL管道的一部分收集的。数据集分为训练集和测试集,每个环境都有对应的文件,包括episodes.jsonl(每个轨迹的记录)、steps.jsonl(每个步骤的记录)、add_groups_mixed.jsonl(训练集,来自不同写入器的内存写入器输出)、add_groups.jsonl(测试集,仅来自Qwen3-14B的内存写入器输出)和trace_index.jsonl(每个任务的索引)。sciworld文件还包括任务名称、11种功能组和6个广泛领域的分类信息。
The auto-dreamer Traces dataset contains rollout trajectories and memory-writer outputs for three text-game environments (alfworld, sciworld, crafter), collected as part of the auto-dreamer memory-RL pipeline. The dataset is divided into training and test sets, with corresponding files for each environment, including episodes.jsonl (records per trajectory), steps.jsonl (records per step), add_groups_mixed.jsonl (training set, memory-writer outputs from a mixture of writers), add_groups.jsonl (test set, memory-writer outputs from Qwen3-14B only), and trace_index.jsonl (index per episode with task description and action sequence). The sciworld files also include task names, 11 functional groups, and classifications into 6 broad domains.
提供机构:
uyffg
搜集汇总
数据集介绍

构建方式
auto-dreamer数据集是面向记忆增强型强化学习管线的高质量轨迹数据集,覆盖AlfWorld、ScienceWorld与Crafter三大文本游戏环境。其构建方式遵循严格的划分逻辑:训练集与测试集分别保存,且轨迹数据以episodes.jsonl记录完整回合(含任务字段、成功标志与步数),steps.jsonl则细致捕获每步的观测、动作与奖励。特别之处在于记忆写入器输出以add_groups_mixed.jsonl形式记录——训练集混合了Qwen3-14B、397B及Gemma4三种不同规模模型的输出(各约占三分之一),并携带writer标签;测试集则统一采用Qwen3-14B的输出。此外,trace_index.jsonl为每个回合建立了包含任务描述与动作序列的索引,便于快速检索。
特点
该数据集具备三大显著特性。其一为多环境覆盖性:囊括AlfWorld、ScienceWorld与Crafter三种风格迥异的文本游戏,总计超过9000条训练轨迹与2600条测试轨迹,为记忆强化学习提供了丰富且多样化的评测基准。其二为多层次语义标注:以ScienceWorld为例,数据同时包含原始任务名称、11个功能分组以及6大领域分类,支持从微观到宏观的层次化分析。其三为记忆写入器多样性:训练数据引入三种不同规模模型的输出混合,使得智能体能够学习不同记忆抽取策略下的轨迹特性,显著增强了训练数据的鲁棒性和泛化能力。
使用方法
使用该数据集的推荐路径是借助HuggingFace Hub进行高效加载。首先通过hf_hub_download函数指定repo_id为uyffg/auto-dreamer、filename参数选择目标文件,如sciworld/test/episodes.jsonl,并以repo_type="dataset"标识下载源。随后读取jsonl文件流,对每一行应用json.loads即可还原结构化的Python记录。研究者可依据episodes.jsonl中的成功标志与得分进行初步过滤,再通过steps.jsonl访问细粒度步级信息,或直接利用trace_index.jsonl获取任务描述与动作序列的摘要,从而快速构建适用于记忆强化学习实验的训练与评估管线。
背景与挑战
背景概述
auto-dreamer数据集由研究团队于近年创建,专注于文本游戏环境中的记忆增强强化学习(memory-RL)研究。该数据集覆盖ALFWorld、ScienceWorld和Crafter三个具有挑战性的文本游戏环境,包含超过1.2万条轨迹数据,其中训练集融合了多种大语言模型(如Qwen3-14B、Qwen3-397B、Gemma4)生成的记忆写入输出,测试集则统一采用Qwen3-14B。核心研究问题在于如何利用外部记忆机制提升智能体在复杂文本游戏中的长期推理与决策能力,其构建过程体现了对多源记忆策略混合优化的探索。该数据集为记忆导向的强化学习算法提供了标准化基准,其多环境、多模型的数据结构显著推动了该领域从单任务记忆设计向泛化记忆架构的演进。
当前挑战
数据集所应对的领域挑战源于文本游戏环境固有的高维状态空间与稀疏奖励信号,要求智能体在无外部提示下自主探索并建立跨场景的任务记忆。具体构建挑战包括:首先,需要在ALFWorld(家居指令)、ScienceWorld(科学实验)和Crafter(生存合成)三个异构环境中,统一设计动作空间与观测编码,确保轨迹格式兼容性;其次,记忆写入阶段需要协调不同规模模型(如Qwen3-14B至397B)的输出风格一致性,避免模型偏差对下游学习的干扰;最后,在测试集中仅保留单模型数据以评估记忆模块的鲁棒性,这种训练/测试数据分布差异要求算法具备强泛化能力,防止过拟合于特定记忆生成模式。
常用场景
经典使用场景
auto-dreamer数据集为强化学习领域中基于记忆增强的文本游戏智能体研究提供了高质量的轨迹数据支撑。该数据集涵盖了AlfWorld、ScienceWorld和Crafter三类典型文本游戏环境,包含超过一万条完整的回合制交互轨迹,每条轨迹均记录了观测、动作、奖励及记忆写入信息。研究者可依托这些数据训练具备长程依赖记忆能力的强化学习模型,使其在复杂的部分可观测环境中实现更为高效的探索与决策。数据集按环境划分训练与测试集,并提供了统一的JSON格式接口,便于开展多环境迁移学习与泛化能力评估。
衍生相关工作
auto-dreamer数据集的发布催生了一系列富有影响力的后续研究工作。其中最具代表性的是基于多写入器混合策略的记忆蒸馏方法,研究者利用数据集中Qwen与Gemma系列模型的轨迹标签,探索了知识从大规模语言模型向轻量级记忆模块的高效迁移。另一项经典工作是借鉴数据集的分层任务结构(如ScienceWorld的11功能组与6大领域分类),构建了具备任务感知能力的元强化学习架构。此外,数据集中提供的add_groups文件已成为分析记忆写入对策略梯度影响的标准实验素材,有力支撑了关于记忆效用边界与计算-存储权衡的理论探索。
数据集最近研究
最新研究方向
auto-dreamer数据集聚焦于文本游戏场景下的记忆增强强化学习前沿研究,通过整合ALFWorld、ScienceWorld和Crafter三大环境的轨迹数据与多模型(Qwen3-14B、Qwen3-397B、Gemma4)生成的记忆写入输出,为探索如何在大语言模型驱动下构建长效记忆机制提供了关键基准。该数据集的设计紧密关联近期热门的大模型记忆与推理融合趋势,其独特的混合记忆写入策略和细粒度任务层次划分(如ScienceWorld的30项原生任务与6大领域分类)使研究者能够系统评估不同规模语言模型在复杂交互任务中的记忆压缩与利用能力,对推动具身智能体在开放世界中的持续学习与泛化具有重要奠基意义。
以上内容由遇见数据集搜集并总结生成



