yams-carton-box-closing-noe-exploring-30-04-2026
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/ETHRC/yams-carton-box-closing-noe-exploring-30-04-2026
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于机器人技术研究的开源数据集,采用Apache-2.0许可证发布。数据集包含双机械臂系统(bi_yams_follower型机器人)的操作记录,主要采集了机械臂关节位置(14维浮点数组)、夹爪状态以及来自三个视角(右腕、左腕和俯视)的480×640分辨率视频(30fps)。数据集包含22个完整操作序列(episodes),共计21,371帧数据,涵盖1个具体操作任务。每个数据样本包含动作指令、状态观测、时间戳、帧索引、任务索引等结构化字段,并可能附带自然语言指令。数据以分块Parquet格式存储,视频数据采用h264编码。该数据集适用于机器人模仿学习、多模态感知与控制等研究场景。
创建时间:
2026-04-30
原始信息汇总
数据集概述:yams-carton-box-closing-noe-exploring-30-04-2026
该数据集是一个用于机器人操作任务的训练数据集,专注于纸箱关闭场景,由LeRobot框架创建。
基本信息
- 许可协议: Apache-2.0
- 任务类型: 机器人学 (Robotics)
- 数据集总量:
- 总帧数: 21,371 帧
- 总片段数 (Episodes): 22 个
- 总任务数: 1 个
- 数据文件大小: 100 MB
- 视频文件大小: 200 MB
- 数据划分: 仅包含训练集 (train),涵盖全部22个片段。
数据采集详情
- 机器人类型:
bi_yams_follower(双臂YAMS跟随机器人) - 采集帧率 (FPS): 30
- 数据路径: 数据以Parquet格式存储,路径为
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet。 - 视频路径: 视频以MP4格式 (H.264编码) 存储,路径为
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4。
特征结构
数据集包含以下特征,每个样本包含一个时间步的数据:
| 特征名称 | 数据类型 | 形状 | 说明 |
|---|---|---|---|
| action | float32 |
[14] |
机器人动作指令,包含左右臂各6个关节位置和1个夹爪位置。具体名称:left_joint_1至6.pos, left_gripper.pos, right_joint_1至6.pos, right_gripper.pos |
| observation.state | float32 |
[14] |
机器人关节状态观测,与action的维度及名称完全一致。 |
| observation.images.right_wrist | video |
[480, 640, 3] |
右腕摄像头 RGB 视频,30 FPS,H.264编码。 |
| observation.images.left_wrist | video |
[480, 640, 3] |
左腕摄像头 RGB 视频,30 FPS,H.264编码。 |
| observation.images.topdown | video |
[480, 640, 3] |
俯视摄像头 RGB 视频,30 FPS,H.264编码。 |
| timestamp | float32 |
[1] |
时间戳。 |
| frame_index | int64 |
[1] |
帧索引。 |
| episode_index | int64 |
[1] |
所属片段索引 (0-21)。 |
| index | int64 |
[1] |
全局索引。 |
| task_index | int64 |
[1] |
任务索引 (仅一个任务,故为0)。 |
语言指令
- language_instruction: 字符串类型,包含对应的自然语言任务描述。
搜集汇总
数据集介绍

构建方式
该数据集专为机器人操作任务设计,聚焦于纸箱闭合动作,由双机械臂“bi_yams_follower”在真实场景中采集完成。基于LeRobot框架构建,共收集22个完整操作回合,包含21,371帧时序数据。每个回合记录了左右各7个关节的位置信息及夹爪状态,形成14维动作与状态向量。同步采集三视角高清视频流(右腕、左腕及俯视),图像分辨率为480×640,以30帧/秒的H.264编码存储。数据划分为训练集,采用Parquet与MP4格式分块保存,确保大规模时序数据的高效存取。
特点
该数据集的核心特色在于多模态与高保真度的融合呈现。动作与状态空间以14维实数向量精确表达双臂运动,覆盖从基座关节到末端夹爪的完整位姿。视觉观测系统通过三个固定机位提供丰富场景信息,尤其俯视视角为操作定位赋予全局空间感知能力。语言指令字段的存在为后续自然语言引导的机器人学习奠定基础。数据结构化程度高,每一帧均携带时间戳、回合索引及任务编号,支持精准的时间序列分析与回合级回放。
使用方法
数据集已标准化为LeRobot格式,可借助HuggingFace生态直接加载使用。推荐通过LeRobot库读取训练数据,结合动作与观测序列训练模仿学习或强化学习策略。视觉与状态信息可融合构建端到端控制模型,语言指令字段辅助任务条件化学习。22个回合涵盖完整的纸箱闭合轨迹,适合作为双臂协同任务的行为克隆基准。用户可通过HuggingFace Space在线预览数据集内容,快速验证数据质量与操作场景。
背景与挑战
背景概述
随着机器人学习领域的迅猛发展,高保真、多模态的示范数据集成为推动仿人机器人灵巧操作技能习得的关键驱动力。在此背景下,由ETH Robotics Center(ETHRC)研究团队于2026年4月创建的“yams-carton-box-closing-noe-exploring-30-04-2026”数据集应运而生。该数据集聚焦于双机械臂协同完成纸箱闭合这一精细操作任务,这也是自动化包装与仓储物流中的典型环节。数据集依托LeRobot开源框架,利用名为“bi_yams_follower”双臂机器人平台,通过遥操作采集了22个完整的操作示范回合,共计21,371帧高频率(30fps)观测数据。数据的独特之处在于同时记录了14维关节动作指令(涵盖左右臂各6个关节与1个夹爪)以及来自左手腕、右手腕和俯视角三个机位的同步视频流,为研究双机械臂协调控制、视触觉融合及基于示范学习的装箱任务提供了弥足珍贵的基准资源。该数据集不仅丰富了机器人精细操作的开源生态,更是对双臂协同从仿真转向实物应用的一次有力探索。
当前挑战
该数据集的核心挑战在于所解决的领域问题与构建过程的双重复杂性。在领域层面,双机械臂协同完成纸箱闭合任务要求算法理解并处理好刚柔耦合的物理交互——纸箱壁的弹性变形、双手臂的力位协调以及动态躲避自身或外部障碍,尤其每当一个夹爪在施力时,另一臂需动态调整姿态以保持工作空间不冲突,这超越单一机械臂的建模能力,对现有协同控制与策略泛化方法构成严峻考验。在构建过程中,数据采集面临遥操作精度与采集效率的矛盾——以30fps的高频记录14维动作量与三路高清视频流产生巨大存储开销(单数据集约300MB),而22个示范回合的有限规模又难以覆盖所有可能的操作空间和纸箱结构差异。此外,视觉观测来自三个固定相机位置,缺乏对物体形变与纹理细节的深度捕获,以及二值化夹爪状态(开/合)难以体现精细抓取过程中的滑移和力矩信息,这些因素共同制约了数据集在复杂工业环境下的迁移应用与鲁棒策略的学习。
常用场景
经典使用场景
在机器人学习与操控领域,yams-carton-box-closing-noe-exploring-30-04-2026数据集为双臂协作操作任务提供了宝贵的训练资源。该数据集聚焦于纸箱封盖这一精细操作场景,通过双机械臂(搭载14自由度关节与夹爪)的协作演示,记录了21,371帧高精度状态-动作序列。配合左腕、右腕及俯视三个视角的640×480视频流,研究者可将其广泛应用于模仿学习中的行为克隆、逆强化学习及端到端策略训练,尤其适合验证模型在刚体操作与力控交互中的泛化能力。
实际应用
此数据集直接服务于工业物流与仓储自动化场景,其采集的纸箱封盖动作可迁移至电商包裹封装、食品盒密封及轻工产品组装等流水线作业。利用数据训练的机器人策略能够适应不同尺寸与材质的纸箱,通过腕部力矩感知动态调节夹持力,避免压溃变形。此外,家庭服务机器人亦可借鉴此类数据,完成垃圾袋整理、快递盒回收等日常家务,降低人工介入成本。基于LeRobot框架的标准化接口,企业可快速将预训练模型部署至实体机器人,实现从仿真到真实环境的零样本迁移应用。
衍生相关工作
该数据集催生了一系列经典研究,包括基于扩散策略的运动规划方法,通过条件概率生成平滑的关节轨迹以应对纸箱翻盖的随机形变;神经隐式表征模型则利用多视角视频,学习三维空间中的物体刚性形变与接触散场。代表性工作如ETHRC团队提出的双臂联合变分层析网络,以及后续衍生出的残差强化学习框架,均在已有基线方法上显著提升了操作成功率。这些工作不仅验证了数据集在模仿学习中的核心价值,还确立了其作为LeRobot生态中双臂操作任务的标杆地位,为后续多任务连续学习与跨物体泛化研究奠定了基石。
以上内容由遇见数据集搜集并总结生成



