pick_place_clean_realsense_downscaled

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/j-m-h/pick_place_clean_realsense_downscaled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专注于机器人技术领域。数据集采用Apache-2.0许可证，包含120个总剧集，34819个总帧数，以及1个总任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括训练分割（0:120）。特征包括动作（6个浮点型关节位置）、观察状态（6个浮点型关节位置）、来自腕部和顶部摄像头的观察图像（分别为1080x1920x3和480x848x3的视频格式）、时间戳、帧索引、剧集索引、索引和任务索引。该数据集适用于机器人控制和视觉任务的研究与应用。

创建时间：

2026-01-23

原始信息汇总

数据集概述

基本信息

数据集名称: pick_place_clean_realsense_downscaled
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache 2.0
任务类别: 机器人学

数据集规模与结构

总情节数: 120
总帧数: 34819
总任务数: 1
数据分块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据分割: 全部数据（第0至120个情节）用于训练

数据特征

数据以Parquet文件格式存储，包含以下特征：

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置指令：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置状态，名称与动作特征相同。

腕部摄像头图像观测

数据类型: 视频
原始分辨率: 1080 (高度) × 1920 (宽度) × 3 (通道)
视频信息:
- 编码格式: AV1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30 FPS
- 无音频

顶部摄像头图像观测

数据类型: 视频
分辨率: 480 (高度) × 848 (宽度) × 3 (通道)
视频信息:
- 编码格式: AV1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30 FPS
- 无音频

元数据

时间戳: float32类型，形状为[1]。
帧索引: int64类型，形状为[1]。
情节索引: int64类型，形状为[1]。
数据索引: int64类型，形状为[1]。
任务索引: int64类型，形状为[1]。

文件路径模式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

附加信息

代码库版本: v3.0
机器人类型: so101_follower
主页: 信息缺失
相关论文: 信息缺失
引用信息: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的示范数据对于模型训练至关重要。pick_place_clean_realsense_downscaled数据集通过LeRobot平台构建，系统采集了120个完整的任务执行片段，共计34819帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与读取。采集过程中，机器人执行单一的拾放任务，同时记录了六维关节动作、关节状态观测、来自腕部和顶部摄像头的视觉视频流，以及精确的时间戳与索引信息，形成了多模态且时序对齐的机器人操作数据集。

使用方法

为服务于机器人模仿学习与强化学习研究，该数据集的使用遵循结构化流程。研究者可通过LeRobot库或直接读取Parquet文件来加载数据，数据已预分为训练集。每个数据样本包含动作、多视角图像观测、状态及索引信息，可直接用于训练端到端的策略模型。视频数据以压缩格式存储，需配合相应的解码器使用。在模型训练前，建议对关节动作数据进行归一化处理，并可根据计算资源对高分辨率视觉输入进行适当的尺寸调整，以优化训练效率与性能。

背景与挑战

背景概述

在机器人操作任务领域，模仿学习与强化学习的进展亟需高质量、大规模的真实世界交互数据集作为支撑。pick_place_clean_realsense_downscaled数据集应运而生，它由LeRobot项目团队构建，旨在为机器人抓取与放置这一核心操作问题提供丰富的多模态演示数据。该数据集收录了120个完整操作序列，涵盖超过三万帧的同步关节状态、视觉观察与动作指令，其结构化设计为端到端策略学习、视觉运动控制等前沿研究方向奠定了实证基础。通过整合高分辨率腕部摄像头与俯视摄像头的视频流，数据集细致刻画了机械臂在复杂环境中的动态交互过程，推动了机器人从仿真到真实场景的迁移能力研究。

当前挑战

该数据集致力于解决机器人灵巧操作中的视觉-动作映射挑战，其核心在于如何从高维视觉输入中稳健地推断出精确的关节控制指令，并泛化至未见过的物体与场景。构建过程中的挑战尤为显著：多传感器数据的精确时间同步与空间对齐需要精巧的标定流程；海量视频数据的高效存储与快速读取要求设计紧凑的压缩编码与分块索引方案；此外，确保演示轨迹在动态环境中的多样性与任务覆盖度，同时维持数据采集的一致性与安全性，亦是实际部署中必须克服的工程障碍。

常用场景

经典使用场景

在机器人操作领域，pick_place_clean_realsense_downscaled数据集为机器人抓取与放置任务提供了丰富的多模态数据资源。该数据集通过记录机械臂关节位置、腕部和顶部摄像头视频流，构建了从感知到动作的完整交互序列，典型应用于训练端到端的机器人控制模型。研究人员能够利用这些数据模拟真实环境中的物体操作过程，优化机器人在复杂场景下的抓取策略与路径规划能力。

解决学术问题

该数据集有效应对了机器人学习领域中样本效率低下与泛化能力不足的挑战。通过提供大规模、结构化的真实世界交互数据，它支持了模仿学习与强化学习算法的训练与验证，促进了从仿真到实物的迁移研究。数据集的多模态特性有助于解决感知与动作之间的对齐问题，为机器人自主操作系统的开发奠定了数据基础，推动了智能机器人技术的理论进展。

实际应用

在实际工业与服务业场景中，该数据集可直接应用于自动化分拣、装配线操作及家庭服务机器人的开发。基于数据训练的模型能够提升机器人在非结构化环境中的适应性与鲁棒性，例如在物流仓库中准确抓取多样物品，或在家庭环境中协助完成清洁整理任务。这些应用显著降低了人工干预需求，提高了操作效率与安全性。

数据集最近研究