pick_place_cube_20260514_121410

Hugging Face2026-05-18 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/imishani/pick_place_cube_20260514_121410

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot平台创建的机器人操作数据集，主要用于机器人技术领域的研究与应用，具体任务可能涉及拾取放置操作。数据集包含33个完整的操作序列（episodes），总计22,644个数据帧，采样频率为30帧/秒。每个数据样本包含多模态信息：动作数据为6维浮点数组，表示机器人关节（包括肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪）的位置指令；观测状态数据为同样6维的关节位置反馈；视觉观测包含来自手腕摄像头和顶部摄像头的两路RGB视频流，分辨率均为480x640，编码格式为AV1。此外，每个样本还包含时间戳、帧索引、episode索引、全局索引和任务索引等元数据。数据集以分块Parquet文件格式组织，并附带MP4格式的视频文件。机器人平台类型为so_follower。整个数据集被划分为训练集。

This dataset is a robot manipulation dataset created using the LeRobot platform, primarily for research and applications in robotics, with tasks potentially involving pick-and-place operations. It contains 33 complete operation sequences (episodes), totaling 22,644 data frames sampled at 30 frames per second. Each data sample includes multimodal information: action data is a 6-dimensional floating-point array representing position commands for robot joints (shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper); observation state data is a 6-dimensional joint position feedback; visual observations include two RGB video streams from a wrist camera and a top camera, both with a resolution of 480x640 and encoded in AV1. Additionally, each sample contains metadata such as timestamps, frame index, episode index, global index, and task index. The dataset is organized in chunked Parquet file format and accompanied by MP4 video files. The robot platform type is so_follower. The entire dataset is divided into a training set.

创建时间：

2026-05-15

原始信息汇总

数据集详情总结

基本信息

数据集名称: pick_place_cube_20260514_121410
许可证: Apache-2.0
任务类别: 机器人学（Robotics）
标签: LeRobot
创建工具: 使用 LeRobot 创建

数据集结构

基础参数

代码库版本: v3.0
帧率 (FPS): 30
机器人类型: so_follower
总片段数: 33
总帧数: 22644
总任务数: 1
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB

特征（Features）

特征名称	数据类型	形状	说明
action	float32	(6,)	6维动作，包含肩部旋转、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置
observation.state	float32	(6,)	6维观测状态，与动作空间一致
observation.images.wrist	video	(480, 640, 3)	腕部摄像头视频，分辨率480×640，RGB三通道，AV1编码，30fps
observation.images.top	video	(480, 640, 3)	顶部摄像头视频，分辨率480×640，RGB三通道，AV1编码，30fps
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

数据划分

训练集: 0:33（所有33个片段均用于训练）

数据存储路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据集可视化

可通过 LeRobot 可视化工具在线查看数据集内容：可视化数据集

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架精心构建，旨在记录机器人执行‘抓取并放置立方体’这一经典操作任务的完整过程。数据采集采用so_follower机器人平台，通过远程操控或预设策略驱动机械臂，以30帧每秒的采样率同步记录机器人关节状态与多视角视觉信息。数据集包含33个完整演示回合，总计22644帧有效数据，所有轨迹均以Parquet格式高效存储，而高分辨率图像则编码为AV1视频文件，确保数据在压缩效率与保真度间取得平衡。

特点

数据集的结构设计极具实用价值，其核心特征涵盖6维连续动作空间与对应观测状态，具体包括肩部、肘部、腕部及夹爪的关节位置。视觉感知层提供腕部与顶部双路RGB图像，分辨率达480×640像素，为模仿学习与多模态融合提供了丰富素材。此外，数据集仅包含单一拾取任务，但通过33个多样化演示覆盖了不同起始位姿与轨迹变量，有助于提升模型的泛化能力。数据已按训练集划分，便于直接用于策略学习。

使用方法

使用者可通过LeRobot库便捷加载该数据集，利用其内置API自动处理Parquet表格与视频流的关联。典型应用场景包括训练基于视觉的运动策略，模型可同时接收机器人状态与摄像头图像作为输入，输出6维关节动作。数据以episode为单位组织，用户可按索引遍历完整演示，并利用时间戳与帧索引进行时序建模。推荐使用PyTorch或TensorFlow框架配合LeRobot的DataLoader，实现批量化训练与数据增强，从而高效复现或改进现有机器人操作算法。

背景与挑战

背景概述

该数据集名为pick_place_cube_20260514_121410，由研究机构或个人imishani创建于2026年5月14日，基于LeRobot框架生成，专注于机器人操作领域的“抓取与放置”任务。核心研究问题在于如何通过模仿学习使机械臂精确完成对立方体的抓取与放置操作，涉及6自由度关节控制（肩部、肘部、腕部）及夹爪动作。数据集包含33个演示片段、22644帧视频，提供顶部与腕部双视角视觉输入（640×480分辨率，30 FPS），并记录关节状态与动作序列。作为LeRobot生态中的标准化数据集，它支持机器人操作技能的可复现研究，为后续迁移学习与多任务泛化提供了基础。

当前挑战

该数据集所在领域面临的主要挑战包括：1）机器人教具的视觉多样性不足，仅通过固定桌面上同一颜色立方体的演示数据，难以泛化至不同形状、纹理或背景环境中的物体；2）动作空间非完整性，演示中仅记录正向夹爪状态，未包含夹爪开合程度连续性，限制了对精细抓取力度的学习；3）构建过程中数据采集受限于单一机械臂型号（so_follower），操作风格与动力学特性固化，难以适应不同机器人平台；4）有限演示次数（33次）与固定任务模式（单一立方体放置），导致在噪声扰动或物体位置偏移下的鲁棒性不足。

常用场景

经典使用场景

在机器人操作与模仿学习的研究领域中，pick_place_cube数据集承载着机械臂从视觉感知到运动执行的核心任务。该数据集以SO Follower机械臂为平台，记录了完整的抓取与放置立方体动作序列，涵盖六自由度关节角度和夹爪位置的动作指令，搭配高帧率腕部与顶部视觉输入。研究者可借此探究视觉运动策略的端到端学习范式，例如利用卷积神经网络或变换器架构从图像序列中直接推断机械臂控制指令，这是机器人技能习得领域最经典的应用基准。

实际应用

在实际工业生产与物流仓储场景中，该数据集所蕴含的技能可被迁移至自动化分拣、装配工序以及货物搬运等环节。基于此类数据训练实现的视觉伺服机械臂，能够在非结构化环境中自主识别目标物体并执行精准的抓取与放置操作，显著提升产线柔性与作业效率。此外，该数据集的格式兼容LeRobot生态，使得研究人员能够快速将仿真环境中的策略迁移至实体机器人上，降低了部署成本与技术门槛。

衍生相关工作

围绕此数据集，衍生了多个具有影响力的研究脉络，其中最具代表性的是视觉运动策略的预训练与大模型提示工程方向。受其启发，学者们相继提出了利用对比学习与掩码重建方式构建机器人视觉基础模型，以及设计基于扩散过程的动作生成框架，有效提升了策略在新场景中的零样本适应能力。另有一些工作专注于数据增强与域随机化技术，旨在利用有限演示数据合成更丰富的训练样本，进而推动机器人操作朝着更通用、更鲁棒的方向迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集