Ganesh-Nadkarni/pick_place_f

Name: Ganesh-Nadkarni/pick_place_f
Creator: Ganesh-Nadkarni
Published: 2026-05-01 14:34:04
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Ganesh-Nadkarni/pick_place_f

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。数据集包含5个总片段，2952帧，1个总任务。数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集的特征包括动作（6个关节位置）、观测状态（6个关节位置）、前视图像（480x640x3）、时间戳、帧索引、片段索引、索引和任务索引。数据文件格式为parquet，视频文件格式为mp4。

This dataset was created using LeRobot and is primarily used in the robotics field. It contains a total of 5 episodes, 2952 frames, and 1 task. The data files size is 100MB, and the video files size is 200MB, with a frame rate of 30fps. The dataset features include actions (6 joint positions), observation states (6 joint positions), front-view images (480x640x3), timestamps, frame indices, episode indices, indices, and task indices. The data files are in parquet format, and the video files are in mp4 format.

提供机构：

Ganesh-Nadkarni

搜集汇总

数据集介绍

构建方式

该数据集依托LeRobot框架构建，专为机器人操作任务设计。数据集记录了SO_Follower机器人执行“拾取与放置”操作的完整轨迹，包含5个演示片段，总计2952帧，帧率为30 FPS。数据以Parquet格式存储，并同步采集前方摄像头视角的640×480分辨率视频，视频编码采用AV1格式。机器人状态与动作空间均涵盖6个自由度，包括肩部旋转、肩部抬升、肘部屈伸、腕部屈伸、腕部旋转及夹爪位置，确保动作序列的高精度复现。

特点

数据集的结构化设计体现在其多模态信息融合上，同时提供机器人关节状态（observation.state）与对应动作指令（action），便于模仿学习中的状态-动作映射。视频数据与状态数据严格时序对齐，支持视觉-运动联合建模。数据按1000帧为一块进行分块存储，便于流式加载。所有数据均采用Apache-2.0开源协议发布，为机器人学习社区提供了可复用的标准化资源。

使用方法

数据集可通过LeRobot提供的可视化界面直接预览，也可通过API按episode索引加载。使用时，用户可读取Parquet文件获取关节状态与动作序列，同时加载对应时间戳的视频帧。数据已预设训练集（全部5个episode），无需额外划分。建议结合模仿学习算法（如行为克隆或扩散策略）进行模型训练，验证算法在单任务场景下的复现能力。

背景与挑战

背景概述

在机器人学习领域，数据驱动的策略学习正逐渐成为实现灵巧操作的核心范式，其中面向具体任务的精细化数据集对于推动模仿学习与强化学习的进步至关重要。pick_place_f数据集由研究者Ganesh-Nadkarni创建，依托Hugging Face的LeRobot框架构建，专注于机器人抓取与放置操作的仿真与真实场景学习。该数据集以6自由度的SO_Follower机器人为执行平台，采集了5个演示回合与近3000帧高质量交互数据，涵盖肩关节、肘关节、腕关节及夹爪的多维动作信息，并同步记录正面视角的640×480视频流。通过标准化信息存储结构与Apache-2.0开源许可，此数据集为研究细粒度操作技巧的迁移、多模态感知融合及动作序列的一致性约束提供了关键基准，在嵌入表示学习与闭环策略泛化等方面具有独特的科研价值。

当前挑战

当前数据集面临的核心挑战在于所解决的领域问题与构建过程的双重复杂性。在领域问题层面，尽管pick_place_f聚焦于基础的抓取-放置操作，但现实环境中物体的几何多样性、光照变化及抓取姿态的不确定性要求模型具备极强的适应性，这对仅有少量示范数据的学习算法构成了严峻考验。构建过程中，同步采集高帧率关节位置与摄像机图像需克服传感器噪声与时延校准的困难，且现有数据的轨迹多样性受限于5个演示回合的规模，难以覆盖广泛的失败恢复策略与遮挡情况。此外，动作空間中6维连续控制信号在长程任务中的误差累积效应以及评估协议的标准化缺失，进一步制约了该数据集在安全关键或复杂装配场景下的直接应用与跨平台推广。

常用场景

经典使用场景

在机器人学习与模仿学习领域，pick_place_f数据集因其专注于抓取与放置这一基础操作而备受青睐。该数据集通过SO-Follower机器人采集了5个完整回合、近三千帧的精细数据，涵盖了六自由度关节状态（包括肩部、肘部、腕部及夹爪位置）与正面视觉观测。经典使用场景集中于训练机器人从人类演示中学习“拾取-放置”技能，研究者常将其应用于行为克隆（Behavior Cloning）算法的验证与对比，借助高保真的动作序列与视频帧，开展端到端策略的泛化能力评估。

衍生相关工作

基于pick_place_f数据集的结构化特性，社区衍生出多项标志性工作。例如，研究者将其作为LeRobot基准套件的一部分，对比不同行为克隆方法（如扩散策略（Diffusion Policy）与端到端Transformer）在操作精度上的表现。另有工作利用该数据集进行“技能合成”（Skill Composition），将拾取-放置片段嵌入更大的任务规划库中。此外，其清晰的模态划分（动作、状态、图像）催生了多模态融合技术的验证，推动了如“视觉-语言-动作”联合模型在机器人基础任务中的初步探索。

数据集最近研究