R1_Lite_put_the_shoes_into_the_shoe_box

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/RoboCOIN/R1_Lite_put_the_shoes_into_the_shoe_box

下载链接

链接失效反馈

官方服务：

资源简介：

R1_Lite_put_the_shoes_into_the_shoe_box是一个基于LeRobot扩展格式的数据集，包含一个主要任务：从盒子中取出鞋子，然后放回并关闭盒子。数据集还包含了6个不同的子任务，3种相机视角，以及丰富的注释信息。数据集被组织成1个数据块，大小为1000。数据集的大小为3.8GB，总共有106个剧集，87219帧，318个视频。

R1_Lite_put_the_shoes_into_the_shoe_box is a dataset based on the LeRobot extended format. It contains one core task: retrieving shoes from a shoe box, then placing them back into the box and closing the box. The dataset also includes 6 distinct subtasks, 3 camera viewpoints, and rich annotation information. It is organized into 1 data chunk with a size of 1000. The total size of the dataset is 3.8 GB, with a total of 106 episodes, 87219 frames, and 318 videos.

创建时间：

2025-11-19

原始信息汇总

R1_Lite_put_the_shoes_into_the_shoe_box 数据集概述

基本信息

数据集名称: R1_Lite_put_the_shoes_into_the_shoe_box
许可证: Apache-2.0
支持语言: 英语、中文
任务类别: 机器人技术
标签: RoboCOIN, LeRobot
帧范围: 10K-100K

技术规格

机器人类型: R1_Lite
代码库版本: v2.1
末端执行器类型: 两指夹爪
帧率: 30 FPS
数据集大小: 3.8GB

场景与动作

场景类型: 家庭环境
原子动作: 抓取、拾取、放置

数据集统计

指标	数值
总情节数	106
总帧数	87219
总任务数	1
总视频数	318
总分块数	1
分块大小	1000

任务描述

主要任务: 将鞋子从盒子中取出然后放回并关闭盒子
子任务:
1. 异常
2. 关闭鞋盒
3. 空
4. 打开鞋盒
5. 将鞋子放入鞋盒
6. 将鞋子从鞋盒中取出

数据特征

视觉观测

observation.images.cam_high_rgb: 视频，720×1280分辨率，AV1编码
observation.images.cam_left_wrist_rgb: 视频，720×1280分辨率，AV1编码
observation.images.cam_right_wrist_rgb: 视频，720×1280分辨率，AV1编码

状态与动作

observation.state: float32，14维关节状态
action: float32，14维动作指令

注释信息

子任务注释: 细粒度子任务分割和标注
场景注释: 语义场景分类和描述
末端执行器注释: 方向、速度、加速度分类
夹爪注释: 开闭状态、活动状态

数据分割

训练集: 情节0-105

文件结构

数据集根目录/ ├── annotations/ # 注释文件 ├── data/ # 数据文件（Parquet格式） ├── meta/ # 元数据 └── videos/ # 视频文件

引用信息

如需在研究中引用此数据集，请使用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在机器人操作数据集构建领域，R1_Lite_put_the_shoes_into_the_shoe_box数据集采用基于LeRobot框架的扩展格式进行系统性构建。该数据集通过R1_Lite型双手机器人采集了106个完整操作片段，总计87219帧视觉数据，涵盖家庭环境下的鞋盒操作任务。数据组织采用分块存储机制，将操作序列划分为单个数据块，每个数据块包含1000个连续操作步骤，并以Parquet格式高效存储多模态观测信息。

特点

该数据集在机器人操作学习领域展现出显著的多模态特征优势。其核心特点在于提供三个不同视角的高清视频流，包括全局视角和左右腕部视角，均以30帧率记录操作过程。数据集配备了丰富的动作标注体系，涵盖抓取、拾取、放置等基本操作单元，并提供了末端执行器的六维位姿、运动方向、速度加速度等精细运动参数。特别值得关注的是，数据集包含夹爪开合状态、活动模式等专为双手操作设计的控制特征，为复杂操作策略学习提供了全面支持。

使用方法

在机器人技能学习应用场景中，该数据集可通过LeRobot框架进行高效加载和预处理。研究者可直接读取Parquet格式的数据文件，获取包含视觉观测、机器人状态和动作指令的完整序列。数据集支持端到端的模仿学习训练流程，用户能够基于多视角视频输入和丰富的动作标注，构建从感知到控制的映射模型。对于特定研究需求，可利用数据集提供的细粒度运动特征进行动作分割分析，或基于末端执行器位姿信息开发精确的运动规划算法。

背景与挑战

背景概述

在机器人操作领域，双手机器人协同执行精细任务一直是研究热点。R1_Lite_put_the_shoes_into_the_shoe_box数据集由RoboCOIN团队于2025年11月发布，基于LeRobot框架构建，专注于家庭环境中的鞋盒整理任务。该数据集包含106个完整操作序列、87219帧多视角视觉数据，通过双指夹爪机器人记录抓取、拾取、放置等原子动作，为解决复杂场景下的双手机器人协同操作提供了标准化基准。其丰富的运动学标注和细粒度任务分割为模仿学习与强化学习算法开发奠定了数据基础。

当前挑战

该数据集致力于解决家庭环境中双手机器人精细操作的核心难题，包括对非刚性物体（鞋子）的稳定抓取策略、多步骤任务的长时序规划、以及双机械臂运动轨迹的避碰协调。在数据构建过程中，面临多视角视频同步精度控制、高维度动作空间标注一致性、以及真实物理交互中的动力学参数采集等挑战。此外，家居场景的光照变化与物体位姿不确定性进一步增加了数据采集的复杂度，需要精确的末端执行器位姿模拟与多模态传感器融合技术支撑。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过记录R1_Lite双指夹爪机器人执行鞋盒收纳任务的完整流程，为模仿学习与强化学习算法提供了标准化的训练范本。其多视角视觉数据与精细的动作标注能够有效支撑机器人抓取、放置等基础操作的策略建模，特别适用于研究家庭环境中物体操作的序列决策问题。

解决学术问题

该数据集通过提供结构化场景下的操作序列数据，解决了机器人技能迁移中的动作泛化难题。其丰富的末端执行器运动轨迹与夹爪状态标注，为研究机器人操作中的动力学建模、动作分割与状态表征学习提供了关键数据支撑，显著推进了具身智能在复杂任务中的认知与执行能力研究。

衍生相关工作

该数据集作为RoboCOIN项目的重要组成部分，已衍生出多篇关于双手机器人协同操作的创新研究。其与LeRobot框架的深度兼容性催生了系列基于端到端学习的机器人控制方法，同时为跨模态表征学习、动作预测模型等研究方向提供了基准测试数据，持续推动着开源机器人社区的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集