tray_clear_v1

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/JiabinQ/tray_clear_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，适用于机器人技术领域。数据集采用apache-2.0许可证。数据集结构包括1个总剧集、668个总帧、1个总任务、2个总视频和1个总块。数据以parquet格式存储，视频以mp4格式存储。数据集包含多个特征，如动作（6个浮点型数据，表示机器人的各个关节位置）、观察状态（同样为6个浮点型数据）、手腕和头部观察图像（480x640x3的视频数据）、时间戳、帧索引、剧集索引、索引和任务索引等。所有特征的数据类型和形状均在meta/info.json文件中详细说明。数据集适用于机器人控制、行为模仿等任务。

创建时间：

2026-02-26

原始信息汇总

数据集概述

基本信息

数据集名称: tray_clear_v1
托管地址: https://huggingface.co/datasets/JiabinQ/tray_clear_v1
任务类别: 机器人学
标签: LeRobot
许可证: Apache 2.0
创建工具: 使用 LeRobot 创建

数据集规模与结构

总情节数: 1
总帧数: 668
总任务数: 1
总视频数: 2
数据块数: 1
数据块大小: 1000
帧率: 30 FPS
数据分割: 训练集 (train) 包含全部数据 (0:1)
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

数据特征

数据集包含以下特征字段：

动作

字段名: action
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

状态观测

字段名: observation.state
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

腕部图像观测

字段名: observation.images.wrist
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

头部图像观测

字段名: observation.images.head
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据

时间戳: timestamp (float32, 形状 [1])
帧索引: frame_index (int64, 形状 [1])
情节索引: episode_index (int64, 形状 [1])
索引: index (int64, 形状 [1])
任务索引: task_index (int64, 形状 [1])

机器人信息

机器人类型: so101_follower
代码库版本: v2.1

补充说明

数据集主页与相关论文信息暂缺。
引用格式 (BibTeX) 信息暂缺。

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于真实世界的交互记录。tray_clear_v1数据集通过LeRobot平台采集，采用SO101 Follower型机器人执行托盘清理任务，以30帧每秒的速率录制了单次完整操作片段。数据以Parquet格式存储，包含668个时间步长的多模态观测与动作序列，其中动作指令与关节状态均以六维浮点向量表征，同时整合了腕部与头部摄像头的RGB视频流，确保了数据在时间与空间维度上的连贯性与精确对齐。

特点

该数据集的核心特征在于其丰富的多模态信息融合。除了记录机器人六个关节的位置控制指令与实时状态反馈，还同步捕获了双视角视觉信息，腕部与头部摄像头均提供480x640分辨率的彩色视频，编码为AV1格式以优化存储。数据结构清晰，每个时间步均附有帧索引、时间戳及任务标识，便于时序分析与任务分割。数据集规模虽小，但作为示范性资源，完整呈现了机器人操作任务的典型数据形态，为算法验证提供了标准化基准。

使用方法

利用该数据集时，研究者可通过LeRobot或兼容框架加载Parquet文件，直接访问动作、状态观测及视频流。数据已按训练集划分，适用于机器人模仿学习、行为克隆或视觉运动策略训练等任务。视频数据可通过指定路径解码，结合关节状态序列，能够重建机器人操作的全过程。由于数据集包含精确的时间对齐，可用于开发与评估时序预测模型或强化学习算法，为机器人操作研究提供可复现的实验数据基础。

背景与挑战

背景概述

在机器人学习领域，模仿学习与离线强化学习等数据驱动方法正逐渐成为解决复杂操作任务的主流范式。tray_clear_v1数据集作为这一趋势下的产物，由HuggingFace的LeRobot项目团队构建并发布，旨在为机器人托盘清理任务提供高质量的示范数据。该数据集聚焦于机械臂在结构化环境中的物体移除操作，通过记录六自由度机械臂的关节位置、夹爪状态以及多视角视觉观测，为研究者探索从视觉输入到动作输出的端到端策略学习提供了关键资源。其采用Apache 2.0开源协议，体现了开放科学的精神，推动了机器人社区在真实世界技能获取方面的协作与创新。

当前挑战

该数据集致力于解决机器人操作中托盘清理这一具体任务的挑战，其核心在于如何让机械臂基于视觉感知，在非结构化或半结构化场景中，安全、高效地移除托盘上的多种物体。这要求策略模型具备强大的泛化能力，以应对物体形状、材质、摆放位置的多样性，以及操作过程中的动态不确定性。在构建过程中，数据采集面临诸多困难，包括确保机械臂动作的平滑性与安全性以避免硬件损坏，同步多传感器数据（如腕部与头部摄像头）以维持时序一致性，以及在高维连续动作空间中录制足够多样且高质量的专家示范。此外，数据标注与存储格式的设计需平衡效率与可访问性，以支持大规模离线训练流程。

常用场景

经典使用场景

在机器人操作领域，tray_clear_v1数据集为机械臂执行托盘清理任务提供了宝贵的示范数据。该数据集记录了机械臂在清理托盘过程中关节位置、夹爪状态以及多视角视觉观测的时序信息，为模仿学习算法的训练提供了真实世界的交互轨迹。研究人员能够利用这些数据构建端到端的策略模型，使机器人学习如何从复杂环境中识别并移除物体，实现自主操作。

衍生相关工作

围绕该数据集，研究社区衍生出多项经典工作，包括基于视觉的模仿学习框架改进、多任务强化学习算法的验证，以及跨领域策略迁移方法的探索。例如，结合tray_clear_v1的轨迹数据，学者们开发了更鲁棒的逆动力学模型，并利用其进行仿真到实物的迁移研究，这些工作显著提升了机器人在非结构化环境中的操作可靠性。

数据集最近研究