memorybench-extended

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/phanikiran1169/memorybench-extended

下载链接

链接失效反馈

官方服务：

资源简介：

MemoryBench Extended 是 MemoryBench 数据集的扩展版本，专注于记忆依赖的机器人操作任务。数据集包含四个任务：stack_and_swap（堆叠并交换积木）、blocks_in_drawers（将积木放入抽屉）、blocks_in_drawers_hard（将三个积木放入不同抽屉）和 inspect_and_pick（检查并拾取红色积木）。每个任务设计用于测试机器人在多步骤操作中的记忆能力，例如在按钮按下后记住积木的原始位置或抽屉的选择。数据集提供训练集（每个任务100个演示）和测试集（每个任务25个演示），图像尺寸为128×128，包含多个视角的RGB、深度和掩码图像。任务文件包括RLBench任务定义和CoppeliaSim场景文件，适用于机器人学习和强化学习研究。

MemoryBench Extended is an extended version of the MemoryBench dataset, focusing on memory-dependent robotic manipulation tasks. The dataset includes four tasks: stack_and_swap (stack and swap blocks), blocks_in_drawers (place blocks in drawers), blocks_in_drawers_hard (place three blocks in different drawers), and inspect_and_pick (inspect and pick the red block). Each task is designed to test the robots memory capabilities in multi-step operations, such as remembering the original position of blocks or the selection of drawers after a button is pressed. The dataset provides a training set (100 demonstrations per task) and a test set (25 demonstrations per task), with image sizes of 128×128, including multiple views of RGB, depth, and mask images. Task files include RLBench task definitions and CoppeliaSim scene files, suitable for robotic learning and reinforcement learning research.

创建时间：

2026-04-26

搜集汇总

数据集介绍

构建方式

MemoryBench Extended 数据集是在原始 MemoryBench 基础上扩展而来的机器人操控基准，专为评估策略在长时间依赖场景中的记忆能力而设计。数据集包含四个全新任务：stack_and_swap、blocks_in_drawers、blocks_in_drawers_hard 和 inspect_and_pick，每个任务均通过 RLBench 仿真平台生成，遵循标准 PerAct 数据布局。每个任务提供 100 条训练演示和 25 条测试演示，演示数据以 zip 压缩包形式组织，解压后形成 <task>/all_variations/episodes/episode<N>/ 的层级结构。任务定义文件（.py）和场景文件（.ttm）随数据集一并提供，便于用户集成到自定义的 RLBench 环境中进行复现与扩展。

使用方法

使用者可通过 HuggingFace Hub 命令行工具下载数据集压缩包，解压至指定数据目录后，将任务定义文件和场景文件复制到 RLBench 环境对应的路径下即可使用。数据集兼容 PerAct、SAM2Act 等主流机器人操控模型的训练流程，用户可直接加载演示数据进行行为克隆或模仿学习。此外，数据集提供了测试集用于评估策略的记忆泛化能力，用户可基于 RLBench 的评估接口运行多变体测试，以量化模型在不同记忆难度下的表现。建议结合原始 MemoryBench 的三个基础任务（put_block_back、reopen_drawer、rearrange_block）一起使用，构建更全面的记忆操控基准。

背景与挑战

背景概述

在具身智能与机器人操作领域，长时记忆与多步骤推理能力是实现复杂任务自主化的关键瓶颈。为系统评估该类能力，MemoryBench Extended数据集于2025年由研究团队基于RLBench仿真平台构建，作为原始MemoryBench的扩展版本，专注于引入需依赖视觉记忆跨阶段决策的操作任务。核心研究围绕机器人如何在缺乏持久视觉线索的条件下，通过内源性记忆完成诸如物体重新排列、多目标分配及信息回溯等挑战性行为。该数据集以其对记忆依赖任务的精妙设计，为模仿学习与强化学习方法在长期时序依赖场景下的泛化能力提供了严格评测基准，对推动具身智能体从感知到记忆一体化建模具有重要影响。

当前挑战

数据及所解决的领域挑战聚焦于机器人视觉运动策略对多步骤记忆的高度依赖性：在stack_and_swap任务中，策略需跨越一个按钮按压干预事件，准确回溯原初物体的放置位置；而在blocks_in_drawers系列任务中，抽屉关闭后场景不再提供选择痕迹，策略必须维持对各抽屉占用状态的内部表征，以避免重复指派。数据构建挑战则体现于任务变体的有限性与示教数量的平衡：每项任务仅含6至100次示教，跨越多种场景变体，要求模型在有限数据下习得精准的记忆回溯能力；同时，较长的操作轨迹（如430–450时间步）增加了自动数据收集与质量控制的难度。

常用场景

经典使用场景

在机器人操作与具身智能领域，MemoryBench Extended数据集被广泛用于评估和训练具备长期记忆能力的视觉运动策略。该数据集通过精心设计的任务——如stack_and_swap要求机器人记住不同颜色块块的初始位置，并在按下按钮后完成位置互换；blocks_in_drawers系列任务则考验机器人自主选择抽屉并记忆已使用抽屉的能力，避免重复放置。这些任务共同构建了一个标准化基准，用于衡量模型在缺乏持续视觉线索时，能否依靠内部记忆完成多阶段、长时序的操作。研究者通常基于该数据集测试策略在时间维度上的信息保留与推理能力，尤其关注其在记忆分隔事件（如按钮按压）后的行为表现。数据集采用RLBench标准格式，包含多视角RGB-D图像和精确的演示数据，便于直接应用于端到端的模仿学习或强化学习框架。

解决学术问题

MemoryBench Extended数据集着力解决了机器人学习领域中一个长期存在但鲜有标准化评估的难题——隐式记忆能力。传统操作数据集常假定目标始终可见或状态完全可观测，忽视了实际场景中因遮挡、动作间隙或任务切换导致的信息断裂。本研究通过引入记忆分隔器（如按钮按压）、多步抽屉放置等约束，逼迫模型在无显式记忆模块的条件下，从观测序列中自主提取并维持任务相关的状态信息。该数据集的问世使得研究者能够量化不同算法在记忆依赖型任务上的泛化差距，推动了隐式记忆机制在策略网络中的设计优化。其意义在于，将认知科学中的工作记忆概念引入具身智能评估体系，为构建更接近人类操作行为的机器人系统提供了关键测试床，并促使社区重新审视行为克隆与强化学习中信息瓶颈的根本影响力。

实际应用

该数据集在真实世界机器人部署中具有重要参考价值，尤其适用于需要长期自主操作的家庭服务与仓储物流场景。例如，在家庭环境中，机器人需完成整理餐具、归位杂物等任务，常面临物品被遮挡或临时移动的情况——这恰恰是blocks_in_drawers任务所模拟的挑战。stack_and_swap任务则对应着生产线上需要按特定顺序切换工位的精细操作，而inspect_and_pick任务模仿了巡检与抓取结合的复合需求。通过在该数据集上训练的策略，机器人能够习得在操作过程中主动维持内部工作记忆，从而减少对视觉图标的依赖，提升任务成功率。这些能力可直接迁移至机器人在厨房收纳抽屉、货架分拣等场景，使它们在不依赖外部标记或频繁重检测的条件下，高效完成多对象、多步骤的使命。

数据集最近研究