pick_place_0120

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/Peropero667/pick_place_0120

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，适用于机器人技术领域。数据集包含50个任务片段，共计27915帧数据，涉及5种不同任务。数据以parquet格式存储，总数据量为100MB，视频文件大小为500MB，帧率为30fps。数据集包含丰富的特征，如机器人动作状态（包括肩部、肘部、腕部和夹爪的位置）、观察状态（同样包括各关节位置）、来自腕部和前置摄像头的视频观察（分辨率分别为480x640和720x1280），以及时间戳、帧索引、任务索引等元数据。视频采用av1编码，yuv420p像素格式，无音频。该数据集特别适合用于机器人动作控制、视觉-动作联合学习等研究任务。

创建时间：

2026-01-21

原始信息汇总

数据集概述

基本信息

数据集名称: pick_place_0120
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 80
总帧数: 42393
总任务数: 5
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 500 MB
帧率: 30 FPS
代码库版本: v3.0

数据划分

训练集: 包含所有80个情节

数据结构

数据以Parquet文件格式存储，路径模式为 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet。视频以MP4文件格式存储，路径模式为 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4。

数据特征

数据集包含以下特征：

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置控制指令，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置状态，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

腕部摄像头图像观测

数据类型: 视频
形状: [480, 640, 3]
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编码格式: AV1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30 FPS
- 通道数: 3
- 无音频

前部摄像头图像观测

数据类型: 视频
形状: [720, 1280, 3]
视频信息:
- 高度: 720 像素
- 宽度: 1280 像素
- 编码格式: AV1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30 FPS
- 通道数: 3
- 无音频

元数据

时间戳: float32 类型，形状为 [1]
帧索引: int64 类型，形状为 [1]
情节索引: int64 类型，形状为 [1]
索引: int64 类型，形状为 [1]
任务索引: int64 类型，形状为 [1]

机器人平台

机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建质量直接决定了模型训练的效能。pick_place_0120数据集依托LeRobot框架，通过SO101型跟随机器人执行拾取与放置任务，系统采集了80个完整操作序列，共计42393帧数据。数据以分块形式组织，每块包含1000帧，并以Parquet格式高效存储，确保了大规模时序数据的管理与读取效率。视频数据采用AV1编码，以30帧每秒的速率同步记录腕部与前置视角，为机器人状态与环境的对应关系提供了精确的多模态对齐。

特点

该数据集在机器人学习领域展现出鲜明的技术特点。其核心在于提供了高维度的动作与状态空间，动作向量包含六自由度关节位置及夹爪状态，而观测状态则同步记录了相同的关节信息，实现了控制指令与本体感知的一致性。多视角视觉信息是另一大亮点，腕部摄像头提供480x640分辨率的操作近距离视图，前置摄像头则以720x1280分辨率捕捉全局场景，两者均以标准RGB格式呈现，为视觉运动策略学习提供了丰富的环境上下文。数据集中还嵌入了详尽的元数据索引，如时间戳、帧序号、任务编号等，便于进行精细化的轨迹分析与任务划分。

使用方法

为有效利用该数据集进行机器人技能学习，研究者可遵循结构化数据加载流程。数据集已预分为训练集，涵盖全部80个任务序列，可通过HuggingFace数据集成工具或直接读取Parquet文件进行访问。在模型训练过程中，可同步提取动作指令、关节状态观测以及双路视频流，构建端到端的模仿学习或强化学习管道。鉴于数据已按分块组织，建议采用流式加载以优化内存使用，并利用帧索引与任务索引实现特定操作片段的快速检索与批量处理，从而高效训练机器人完成复杂的拾放操作任务。

背景与挑战

背景概述

在机器人操作领域，模仿学习与强化学习的进展亟需大规模、高质量的真实世界交互数据集作为支撑。pick_place_0120数据集应运而生，它由HuggingFace的LeRobot项目创建，专门面向机器人抓取与放置任务。该数据集收录了80个完整交互片段，涵盖5项具体任务，包含超过4万帧的多模态数据，整合了机器人关节状态、腕部与前置摄像头视频流以及精确的时间戳信息。其核心研究问题在于如何通过真实物理交互数据，训练出能够泛化至多样化场景的灵巧操作策略，从而推动具身智能在非结构化环境中的实际应用。

当前挑战

该数据集旨在应对机器人操作中模仿学习与策略泛化的核心挑战，即如何从有限的演示数据中学习能够适应物体属性、初始姿态及环境动态变化的鲁棒控制策略。构建过程中的挑战尤为显著，包括在多摄像头视角下确保视频流与机器人状态数据的精确时间同步，以及在高维连续动作空间中采集覆盖任务多样性的高质量演示轨迹。此外，大规模视频数据的存储、编码与高效访问，以及数据采集过程中机器人硬件的一致性与安全性保障，均是数据集构建必须克服的技术障碍。

常用场景

经典使用场景

在机器人操作领域，pick_place_0120数据集为机械臂抓取与放置任务提供了丰富的多模态数据资源。该数据集通过记录六自由度机械臂在多种任务中的关节位置、夹爪状态以及来自腕部和前端的视觉图像，构建了从感知到动作的完整交互序列。研究者可基于这些数据训练端到端的模仿学习模型，使机器人能够学习人类演示的抓取策略，从而在结构化环境中实现精准的物品操控。

解决学术问题

该数据集有效应对了机器人模仿学习中数据稀缺与泛化能力不足的挑战。通过提供包含80个完整交互片段、超过4万帧的多视角视觉与动作数据，它支持了从高维观察空间到低维动作空间的映射研究。这有助于解决视觉-运动协调、动作序列规划以及跨任务策略迁移等核心学术问题，为机器人自主操作能力的提升奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列专注于机器人模仿学习与视觉运动控制的经典研究工作。例如，基于时空注意力机制的序列建模方法被用于从视频演示中提取关键动作特征；同时，结合强化学习与行为克隆的混合框架也借助此类数据提升了策略的样本效率与泛化性能。这些工作共同推动了数据驱动机器人操作技术的进步，并为后续大规模机器人数据集的构建提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集