eval_put-box-in-tray

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Mark-Teeratorn/eval_put-box-in-tray

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专注于机器人技术领域，采用Apache 2.0许可证。数据集包含机器人动作、状态观测（包括顶部和前置摄像头图像）、时间戳及各类索引信息。数据以parquet格式存储，视频文件以mp4格式存储，帧率为5fps。数据集结构详细描述了各字段的数据类型、形状和名称，适用于机器人控制、行为学习等任务。数据总大小约为300MB（数据文件100MB，视频文件200MB），但具体样本数量未明确说明。

This dataset is created by LeRobot and focuses on the field of robotics, using the Apache 2.0 license. It includes robot actions, state observations (including top and front camera images), timestamps, and various index information. The data is stored in parquet format, with video files in mp4 format at a frame rate of 5fps. The dataset structure details the data types, shapes, and names of each field, making it suitable for tasks such as robot control and behavior learning. The total data size is approximately 300MB (100MB for data files and 200MB for video files), but the exact number of samples is not specified.

创建时间：

2026-05-07

原始信息汇总

数据集概述

数据集名称: eval_put-box-in-tray
数据集地址: https://huggingface.co/datasets/Mark-Teeratorn/eval_put-box-in-tray
许可证: Apache-2.0
任务类别: 机器人 (Robotics)
标签: LeRobot

数据集描述

该数据集使用 LeRobot 创建，包含机器人操作任务的评估数据。

数据集结构

代码库版本: v3.0
机器人类型: so_follower
总集数 (Episodes): 0
总帧数 (Frames): 0
总任务数: 0
块大小 (Chunks Size): 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (FPS): 5

数据特征

动作 (Action)

数据类型: float32
维度: 6
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态 (Observation State)

数据类型: float32
维度: 6
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像 (Observation Images)

顶部摄像头 (top):
- 数据类型: video
- 分辨率: 480 x 640 x 3 (高度 x 宽度 x 通道)
前部摄像头 (front):
- 数据类型: video
- 分辨率: 480 x 640 x 3 (高度 x 宽度 x 通道)

其他特征

timestamp: float32, 形状 [1]
frame_index: int64, 形状 [1]
episode_index: int64, 形状 [1]
index: int64, 形状 [1]
task_index: int64, 形状 [1]

数据路径

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

引用信息当前未提供。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于机器人操控任务中的“将盒子放入托盘”这一特定场景。数据以Parquet格式存储于data目录下，并辅以MP4格式的视频文件。其元信息文件meta/info.json详细定义了机器人类型为so_follower，数据采集帧率为5 FPS，并预设了100 MB的数据文件与200 MB的视频文件容量。数据特征涵盖了6维动作空间与状态空间，分别对应机械臂的关节位置与夹爪状态，同时包含顶部与前向两个视角的480×640分辨率视频流，以及时间戳、帧索引、片段索引等结构化信息。

特点

数据集的核心特色在于其精细的多模态融合设计。动作与状态数据均采用32位浮点数表示，确保了控制指令与观测反馈的高精度。视频数据与结构化时序数据紧密结合，为模仿学习与强化学习提供了完备的感知-行动闭环。尤其值得关注的是，数据集包含了清晰的片段划分机制（episode_index）与任务索引（task_index），便于研究者对长序列任务进行分割与重放。此外，Apache-2.0开源许可赋予了用户极大的灵活性与商业应用潜力。

使用方法

使用者可通过LeRobot库中的可视化工具直接加载并预览数据集内容，亦能利用其标准API读取Parquet文件与对应的视频片段。在模型训练中，建议将动作序列与观测图像对齐，构建端到端的策略网络。由于数据集遵循LeRobot的v3.0规范，用户可轻松调用其数据加载器进行批处理，并依据frame_index与episode_index进行时序划分。对于需要多视角输入的任务，顶部与前向摄像头图像可分别或联合作为视觉特征输入，以提升环境感知的鲁棒性。

背景与挑战

背景概述

该数据集由Mark-Teeratorn等人基于LeRobot框架创建，旨在为机器人操作任务提供标准化的评估基准。核心研究问题聚焦于机械臂执行‘将盒子放入托盘’的精确操作能力，通过记录六自由度关节动作、顶部及前方视觉图像等多模态数据，为模仿学习与强化学习算法提供训练与验证素材。作为机器人领域少有的公开细粒度操作数据集，它填补了物体搬运任务中从感知到控制闭环验证的空缺，对推动灵巧操作技能迁移研究具有重要参考价值。

当前挑战

领域层面，机器人操作面临的关键挑战在于复杂的非结构化环境适应性，例如盒子形状、托盘位置及光照变化的泛化问题。此外，动作序列的长时间依赖性与高精度要求（如毫米级放置误差）对现有算法提出严峻考验。构建过程中，数据采集面临机器人运动轨迹的平滑性控制难题，需保证重复实验的一致性；同时，多视角视频流与关节状态的同步记录要求精密的硬件-软件协同校准，易受传感器噪声与通信延迟干扰，导致原始数据存在断点或错帧问题。

常用场景

经典使用场景

在机器人操作领域，将物体精准放置于容器内是一项基础且具有挑战性的任务。eval_put-box-in-tray数据集专为模仿学习和强化学习研究设计，提供了从视觉观测到关节动作的完整轨迹。每条数据均包含来自顶部和前方的双视角图像序列，以及六自由度机械臂的关节位置与夹爪状态。研究者常利用该数据集训练机器人从视觉输入直接映射到动作输出的端到端策略，如行为克隆或扩散策略模型，使机器人能够学会将盒子平稳、准确地放入托盘中。

实际应用

在实际生产中，箱盒拾放与整理是物流、仓储和制造流水线上的高频操作。基于该数据集训练的策略可直接部署于协作机器人，实现自动化码垛、货品分拣和物料转运。例如，当传送带随机传送不同规格的盒子时，机器人能实时调整抓取姿态和放置位置。该数据集的多模态感知特性（视觉+本体感知）还使其适用于质量检测场景，通过分析抓取前后的状态差异判断操作是否成功，为工业柔性自动化提供了低成本的解决方案。

衍生相关工作

围绕此数据集衍生出的研究工作集中于提升策略学习效率与鲁棒性。经典工作如使用扩散模型（Diffusion Policy）从该数据中学习多峰分布的动作空间，显著优于传统的高斯混合模型；还有工作引入分层强化学习框架，将“抓取-抬升-放置”分解为子任务，通过该数据集验证了模块化迁移的有效性。此外，数据增强技术如视角随机化、对抗性扰动也被用于增强视觉表示的泛化能力。这些工作共同推动了具身智能领域对精确操作任务的理解，并为后续更复杂的多步操作数据集构建奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集