yams-carton-box-closing-fri-tom-mat-varing-fan-position

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/ETHRC/yams-carton-box-closing-fri-tom-mat-varing-fan-position

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集包含8458个训练样本，总大小为1776180字节。数据特征包括14维的动作和观察状态（均为float32类型），以及时间戳、帧索引、片段索引、索引、任务索引和语言指令（string类型）。此外，数据集还包含来自不同视角（右腕、左腕和俯视）的视频图像，分辨率为480x640，帧率为30fps。数据集的结构信息详细记录了机器人的关节位置和夹持器位置，适用于机器人控制和学习任务。数据集采用Apache-2.0许可证。

创建时间：

2026-04-25

原始信息汇总

数据集概述

该数据集是一个用于机器人操作任务的数据集，具体涉及纸箱封箱操作，由 LeRobot 工具创建。

基本信息

许可证: Apache-2.0
任务类别: 机器人学 (robotics)
机器人类型: bi_yams_follower
总帧数: 8458 帧
总片段数: 8 个片段
总任务数: 1 个任务
帧率: 30 FPS
数据集大小: 数据集总大小约 1776180 bytes（约 1.69 MB），下载大小约 1078492 bytes（约 1.03 MB）

数据划分

训练集: 包含所有 8 个片段，共 8458 个样本

数据特征

数据集包含以下特征：

特征名称	数据类型	维度	描述
action	float32	(14,)	包含 14 个关节位置指令（包括左右各 6 个关节位置和 1 个夹爪位置）
observation.state	float32	(14,)	机器人状态观测值，与 action 结构相同
observation.images.right_wrist	视频 (h264)	(480, 640, 3)	右腕相机图像，30 FPS
observation.images.left_wrist	视频 (h264)	(480, 640, 3)	左腕相机图像，30 FPS
observation.images.topdown	视频 (h264)	(480, 640, 3)	俯视相机图像，30 FPS
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	索引
task_index	int64	(1,)	任务索引

数据格式

数据文件: 存储在 Parquet 格式中，路径为 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: 存储在 MP4 格式中，路径为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

动作与状态详情

动作和状态均由 14 个维度组成，具体为：

左臂: left_joint_1.pos 至 left_joint_6.pos（6个关节位置）及 left_gripper.pos（夹爪位置）
右臂: right_joint_1.pos 至 right_joint_6.pos（6个关节位置）及 right_gripper.pos（夹爪位置）

搜集汇总

数据集介绍

构建方式

该数据集依托于LeRobot框架构建，旨在为双臂机器人操作任务提供标准化训练资源。数据采集基于一款名为bi_yams_follower的机器人平台，通过遥控操作完成纸箱关闭这一特定任务。采集过程中，通过调节风扇位置引入环境变量的变化，以增强数据的多样性。数据集共包含8个完整操作回合（episode），总计8458帧有效数据，以30帧/秒的采样频率录制。数据存储采用分块方式，动作与状态信息以Parquet格式保存，而视觉观测则以H.264编码的MP4视频文件存储，实现了高效的数据管理。

特点

该数据集最显著的特征在于其多模态与高维度特性。动作空间与状态空间均包含14个自由度，全面覆盖双臂各关节位置及夹爪状态，为精细化的机器人控制模型提供了丰富的输入输出维度。视觉观测方面，数据集提供了右腕、左腕及俯视三个视角的RGB图像，分辨率达640×480像素，使得模型能够从多角度感知操作环境。此外，语言指令字段的加入为任务语义理解提供了可能，使得该数据集不仅适用于模仿学习，还可拓展至多任务或基于指令的机器人学习场景。

使用方法

用户可通过LeRobot库便捷地加载与使用本数据集。建议使用`lerobot`中的`load_dataset`函数直接指定数据集名称`ETHRC/yams-carton-box-closing-fri-tom-mat-varing-fan-position`，并利用其内置的数据加载器将动作、状态、图像及索引等字段自动对齐。训练时，可将14维的动作与状态向量作为模型输入，结合多视角图像进行端到端的模仿学习。数据集已预划分训练集，用户亦可基于`episode_index`字段自定义验证集划分，以适配不同的算法评估需求。

背景与挑战

背景概述

该数据集由ETHRC团队基于LeRobot框架创建，发布在Hugging Face平台上，核心研究问题聚焦于机器人灵巧操作中的纸箱封闭任务。随着机器人技术向精细化和柔性化发展，如何让双机械臂系统在动态环境中协同完成复杂操作成为关键挑战。数据集记录了双机械臂（bi_yams_follower）在多个风扇位置变化条件下执行纸箱封闭的完整轨迹，包含8458帧、8个episode，并采集了左右腕部和顶部俯视的视觉信息，为研究视觉-运动耦合策略提供了宝贵的实例。其影响力体现在：1) 为机器人操作领域提供了首个公开的、含环境干扰变量的纸箱封闭数据集；2) 依托LeRobot标准格式，便于与模仿学习、强化学习等算法无缝对接，推动机器人从实验室场景向真实工业物流场景迁移的研究。

当前挑战

该数据集所解决的领域问题挑战在于：纸箱封闭要求双机械臂在完全贴合纸箱边沿前完成连续、同步的挤压与折边动作，对关节轨迹规划、力控同步和视觉伺服精度提出了严苛要求，而现实中风扇产生的气流扰动会改变纸箱形态和运动阻力，进一步加剧了任务的不确定性。构建过程中的挑战包括：1) 多视角视觉数据的同步采集与标定，需确保左右腕部及俯视相机在30FPS下时间戳对齐；2) 为模拟真实物流场景，需精确控制风扇位置与风速以引入可控干扰，同时避免气流对机械臂传感器和控制系统造成干扰；3) 在有限8个episode（8458帧）条件下，如何保证动作序列的多样性和覆盖度，以支持后续机器人泛化性研究。

常用场景

经典使用场景

在机器人操作与灵巧操控领域，该数据集为双臂协同完成纸箱闭合任务提供了精细化的动作与状态记录。其典型应用场景聚焦于学习从多视角视觉观测（包括左右腕部及俯视相机）到14维关节与夹爪控制指令的映射关系。研究者可借助此类数据训练模仿学习或强化学习策略，使机器人能够适应风扇位置变化等环境扰动，实现稳健的纸箱封装操作。

实际应用

在实际应用中，该数据集直接服务于自动化仓储与物流包装线的智能升级。机器人可基于学习到的策略，自主完成纸箱的翻盖、闭合与封口等系列动作，替代传统繁琐的示教编程。特别是在风扇位置变化导致纸箱形态不一时，学习到的鲁棒策略能极大提升包装工序的柔性与效率，降低因硬件变更带来的重新部署成本。

衍生相关工作

该数据集的发布催生了多项机器人学习领域的衍生工作。围绕双臂操作场景，研究者基于此数据开发了多视角注意力融合模型，以提升对遮挡与光照变化的适应性；同时，其精细的关节空间数据也被用于预训练-微调范式的迁移学习研究中，验证了从仿真到真实环境的策略迁移效果。这些工作共同推动了灵巧操作数据集标准与评估流程的规范化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集