ETHRC/yams-carton-box-closing-sat-michael-mat-varing-fan-position-25-04-2025

Name: ETHRC/yams-carton-box-closing-sat-michael-mat-varing-fan-position-25-04-2025
Creator: ETHRC
Published: 2026-04-25 12:36:54
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/ETHRC/yams-carton-box-closing-sat-michael-mat-varing-fan-position-25-04-2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学数据集，使用LeRobot创建。数据集包含133个片段，97435帧，涉及1个任务。数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集包含机器人动作和观察的特征，如关节位置、夹持器位置以及来自不同视角（右手腕、左手腕和俯视）的图像。所有数据均以parquet格式存储，视频以mp4格式存储。数据集采用Apache 2.0许可证。

This dataset is a robotics dataset created using LeRobot. It contains 133 episodes, 97435 frames, and involves 1 task. The data files are 100MB in size, video files are 200MB, and the frame rate is 30fps. The dataset includes features related to robot actions and observations, such as joint positions, gripper positions, and images from different perspectives (right wrist, left wrist, and topdown). All data is stored in parquet format, and videos are stored in mp4 format. The dataset is licensed under Apache 2.0.

提供机构：

ETHRC

搜集汇总

数据集介绍

构建方式

在机器人灵巧操作领域，数据采集的精准性与多样性直接决定了模型泛化能力的上限。该数据集基于LeRobot框架构建，采用双机械臂遥操作范式，由名为“bi_yams_follower”的机器人系统完成纸箱封盖这一精细化任务。数据集共收录133个演示片段，累计包含97,435帧连续动作序列，所有数据均以30帧/秒的采样频率进行记录。每个片段均通过Parquet格式存储于分块文件中，确保大规模数据的高效读写与加载。

特点

该数据集最显著的特点在于其丰富的多模态信息与高维动作空间。观测数据涵盖三个视角的高清视频流——右腕、左腕及俯视视角，每帧分辨率达480×640像素，为模型提供了全局与局部互补的视觉线索。动作空间由14维浮点向量构成，精确定义了左右各6个关节位置及末端夹爪状态，完整刻画了双臂协同作业的复杂动态。此外，数据已按训练集比例预设划分，可直接用于模仿学习或强化学习任务。

使用方法

借助LeRobot生态系统的兼容性，研究者可通过HuggingFace提供的可视化界面直接浏览数据集内容，实现零代码预览。在编程使用中，推荐调用LeRobot库中的数据集加载函数，按指定分块路径读取Parquet文件与MP4视频流。由于数据以标准化格式存储，可无缝接入Diffusion Policy、ACT等主流机器人学习框架，亦可依据“total_episodes”与“total_frames”字段进行自定义的数据分割与批处理操作。

背景与挑战

背景概述

在机器人操作领域，精确执行封闭式任务（如纸箱封盖）对工业自动化和物流分拣具有关键意义。该数据集由ETHRC机构于2025年4月创建，基于LeRobot框架采集，专注于双机械臂协作场景下的纸箱封盖任务。核心研究问题在于如何通过视觉与运动状态的融合，实现高精度、可泛化的机器人操作策略学习。数据集包含133个示范片段，总计约97,435帧，从左右腕部及俯视视角捕获多模态信息，并记录双机械臂共14个关节的实时状态与动作。依托其开放的Apache-2.0许可，该资源旨在推动模仿学习与强化学习在精细操作任务中的发展，为具身智能体的鲁棒控制提供标准化训练基准。

当前挑战

该数据集所针对的核心挑战在于双机械臂协同封闭纸箱任务的建模与控制复杂性。一方面，机器人需在非结构化环境中精准估计纸箱位置、形变状态及封盖轨迹，这要求模型能够从多视角视觉流中提取时空特征，并处理关节角度与力矩间的耦合关系。另一方面，构建过程中面临示范数据采集的难度，十四个关节的同步操控与多摄像头标定需精准协调，以确保动作与观察状态的对齐。此外，仅有133个示范片段且单一任务，限制了模型对相似但非完全一致情境（如不同纸箱规格或扰动物品）的泛化能力，数据效率与鲁棒性提升仍是关键瓶颈。

常用场景

经典使用场景

该数据集聚焦于双机械臂在自动化包装场景中的协同操作任务，具体涉及薯片纸箱的封箱流程。数据包含了133个完整操作回合（episodes），总计超过97000帧图像与14维关节动作指令，覆盖了左、右机械臂各6个关节及夹爪的位置信息。其经典使用场景在于利用LeRobot框架训练模仿学习模型，使机器人能够从人类演示中习得纸箱对齐、翻盖下压及边缘密封等精细动作序列。借助来自右腕、左腕及俯视角的三路摄像头（分辨率480×640，30帧/秒）所捕获的多视角视觉输入，研究者可构建感知-动作闭环系统，用于验证多模态融合策略在柔顺操作中的有效性。

衍生相关工作

该数据集衍生了一系列代表性学术工作，围绕模仿学习与多模态融合在工业操作上的应用。研究者利用其多视角视觉与关节数据，提出了基于Transformer架构的全新端到端操作网络，实现了对纸箱封箱动作的跨场景泛化。部分工作探索了利用因果推理与状态空间模型对数据集中的序列进行建模，成功提升了长时序操作的成功率。另一些研究则聚焦于领域随机化策略，通过在该数据集上引入光照、遮挡等扰动，发展了更为鲁棒的视觉特征提取方法。这些衍生工作不仅验证了数据集的广泛适用性，还推动了包装操作从固定动作库向自适应学习系统的演进。

数据集最近研究