ereaserIntoBox

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Greynar/ereaserIntoBox

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot框架创建，是一个机器人任务数据集，专门针对so101_follower机器人平台。数据集包含100个完整任务片段（episodes），共计67,893个数据帧，涵盖单一任务类型。数据以分块Parquet文件格式存储，并配有对应的MP4格式视频文件。数据集的核心字段包括：机器人的6维关节位置动作指令（action）；对应的6维关节位置状态观测（observation.state）；来自顶部（top）和前方（front）两个固定视角的RGB视觉观测（observation.images），每个视频的分辨率为640x480，帧率为30fps，编码格式为AV1；以及时间戳（timestamp）、帧索引（frame_index）、片段索引（episode_index）、全局索引（index）和任务索引（task_index）等元数据。该数据集适用于机器人模仿学习、强化学习、行为克隆及多模态感知-动作联合建模等研究任务。

This dataset is created using the LeRobot framework and is a robot task dataset specifically designed for the so101_follower robot platform. It contains 100 complete task episodes, totaling 67,893 data frames, covering a single task type. The data is stored in chunked Parquet file format and comes with corresponding MP4 video files. The core fields of the dataset include: 6-dimensional joint position action commands (action) for the robot; corresponding 6-dimensional joint position state observations (observation.state); RGB visual observations (observation.images) from two fixed perspectives (top and front), with each video having a resolution of 640x480, a frame rate of 30fps, and AV1 encoding format; as well as metadata such as timestamp, frame_index, episode_index, index, and task_index. This dataset is suitable for research tasks such as robot imitation learning, reinforcement learning, behavior cloning, and multimodal perception-action joint modeling.

创建时间：

2026-05-18

原始信息汇总

数据集概述

该数据集是一个面向机器人领域的数据集，使用 LeRobot 框架创建，采用 Apache-2.0 许可证。

基本信息

数据集名称: ereaserIntoBox
许可证: Apache-2.0
任务类别: 机器人 (robotics)
机器人类型: so101_follower
代码库版本: v3.0

数据规模

总片段数 (总轨迹数): 100
总帧数: 67,893
总任务数: 1
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 200 MB
数据分块大小: 1000 帧/块

数据划分

训练集: 100% (0:100)

数据特征

数据集包含以下特征维度：

动作 (action): 6 维浮点数，表示机器人肩部、肘部、腕部和夹爪的关节位置。
观测状态 (observation.state): 6 维浮点数，表示与动作相同的机器人关节位置。
观测图像 (observation.images):
- 顶部相机 (observation.images.top): 视频数据，分辨率 480x640，3 通道 (RGB)，AV1 编码，30 FPS。
- 正面相机 (observation.images.front): 视频数据，分辨率 480x640，3 通道 (RGB)，AV1 编码，30 FPS。
时间戳 (timestamp): 1 维浮点数
帧索引 (frame_index): 1 维整数
片段索引 (episode_index): 1 维整数
索引 (index): 1 维整数
任务索引 (task_index): 1 维整数

数据存储结构

数据文件存储路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件存储路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

ereaserIntoBox数据集基于LeRobot框架构建，专注于机器人操控领域。该数据集通过模拟或真实机器人平台采集了100个回合（episodes）的演示数据，总计67,893帧，涵盖单一任务。数据以Parquet格式存储于分块文件中，每块最多包含1,000个样本，同时将高清视频（480×640分辨率，AV1编码）分离保存，确保高效访问。特征空间包括6维动作与状态向量（对应机器人肩部、肘部、腕部及夹爪位置），以及顶部和前向双视角图像，配合时间戳与索引信息，形成多模态同步记录。

特点

该数据集的核心特点在于其结构化的多模态融合设计。动作与状态空间共享相同的6自由度关节配置，便于直接进行模仿学习或逆动力学建模。视觉观测提供两个固定视角（top和front）的30 FPS视频流，图像通道为RGB，且明确标记非深度图，适合视觉-运动策略训练。数据按100个完整任务回合划分，全部用于训练，无验证/测试集拆分，适合固定场景下的技能复现研究。此外，Apache-2.0许可证保障了开放的学术与商业使用权限。

使用方法

用户可通过LeRobot库加载该数据集，利用其内置的DataLoader将Parquet特征与视频流自动对齐。使用时需指定config_name为'default'，并引用data/*/*.parquet路径。建议将动作与状态序列作为输入，结合双视图图像进行端到端策略学习。由于数据集仅含单一任务，适用于行为克隆或强化学习中的奖励函数设计。训练时需注意视频解码依赖AV1编码器，建议确保环境兼容性。元信息中的chunks_size和fps参数可用于定制批处理与采样频率。

背景与挑战

背景概述

ereaserIntoBox数据集诞生于机器人学习领域对精细操作任务的迫切需求，由Hugging Face社区基于LeRobot框架创建，旨在为模仿学习与强化学习提供标准化、可复现的训练数据。该数据集聚焦于“擦除入盒”这一典型操作场景，记录了SO-101跟随式机器人执行将物体擦拭并置入容器的完整动作序列，包含100个演示片段与约6.8万帧高清视觉及六维关节状态信息。作为开源机器人数据集的重要补充，它填补了面向桌面级精密操作任务的多元数据缺口，为多模态感知与动作表征的融合研究提供了基准，推动了机器人技能泛化与仿真到现实迁移的实证探索。

当前挑战

该数据集所解决的领域挑战主要涉及机器人精细操作中的技能学习困难，即如何从有限演示中高效提取可泛化的策略，以应对物体材质、位置和角度变化带来的不确定性。构建过程中，难点在于确保机器人动作的精确复现与多模态数据的高频同步，包括在30帧/秒下对齐三维关节坐标与640×480分辨率的视觉流。此外，数据采集依赖遥操作与自动收集，面临人为演示质量波动与交互噪声干扰的平衡问题，而仅针对单一任务的样本规模也限制了模型在复杂环境下的鲁棒性验证。

常用场景

经典使用场景

ereaserIntoBox数据集专为机器人模仿学习研究而设计，聚焦于物体取放与放置任务。该数据集包含100个演示片段、共计近6.8万帧的高频时序数据，记录了一台SO101型从动机器人完整执行‘将物体放入盒子’这一经典操作的过程。通过高帧率（30 FPS）的视觉观测（顶部与前向摄像头）与六维关节状态/动作序列的同步采集，研究人员可以利用此数据集训练端到端的策略网络，如行为克隆或扩散策略模型，使机器人学习从感知到动作的映射关系，堪称机器人技能学习领域的基准测试资源。

解决学术问题

该数据集有效解决了机器人领域中精细操作技能数据稀疏与复现性不足的学术问题。传统上，机器人抓取与放置操作的研究多依赖手工设计的控制规则或稀疏奖励强化学习，难以推广至复杂场景。ereaserIntoBox提供了标准化的多模态演示数据，使研究者得以系统性地探索基于状态和视觉输入的模仿学习算法，验证模型在单一任务、高维度连续动作空间下的泛化能力与鲁棒性，推动了从‘看得见’到‘做得到’的感知-动作闭环研究，为技能迁移与少样本学习奠定了关键的数据基石。

衍生相关工作

该数据集衍生了多个机器人操作领域的标志性工作，尤其推动了基于扩散策略与视觉-语言模型结合的仿人化操作研究。以LeRobot生态为依托，围绕ereaserIntoBox涌现了如行为克隆基线模型（BC-RL）、噪声条件评分网络（NCSN）以及具身多模态预训练等前沿成果。这些工作不仅验证了数据集作为训练支撑的有效性，还借助其精细的关节空间表示与多视角视觉信息，探索了动作变分推断、任务泛化内插以及域随机化扩展等进阶课题，成为后续研究对比实验与模型消融分析的权威参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集