pick_and_place
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/jae0311/pick_and_place
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于机器人学任务的数据集,包含了10个剧集,共3767帧,1个任务,30个视频和1个片段。每个片段包含1000帧数据,帧率为30fps。数据集包括机器人的动作和观测状态,以及顶部、手腕和前部摄像头的视频数据。数据集的许可证为Apache-2.0。
创建时间:
2025-10-19
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人技术
- 标签: LeRobot
数据集创建
- 使用LeRobot创建(https://github.com/huggingface/lerobot)
数据集结构
统计信息
- 总回合数: 10
- 总帧数: 3767
- 总任务数: 1
- 总视频数: 30
- 总块数: 1
- 块大小: 1000
- 帧率: 30 FPS
- 分割: 训练集(0:10)
数据特征
动作特征
- 数据类型: float32
- 形状: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
观测状态
- 数据类型: float32
- 形状: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
图像观测
顶部摄像头:
- 数据类型: 视频
- 分辨率: 360×640×3
- 视频编码: AV1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无
腕部摄像头:
- 数据类型: 视频
- 分辨率: 480×640×3
- 视频编码: AV1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无
前部摄像头:
- 数据类型: 视频
- 分辨率: 480×640×3
- 视频编码: AV1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无
元数据特征
- 时间戳: float32[1]
- 帧索引: int64[1]
- 回合索引: int64[1]
- 索引: int64[1]
- 任务索引: int64[1]
文件路径格式
- 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
技术信息
- 代码库版本: v2.1
- 机器人类型: so101_follower
搜集汇总
数据集介绍

构建方式
在机器人操作领域,pick_and_place数据集通过LeRobot平台精心构建,采用SO101型跟随机器人采集真实环境下的抓取任务数据。该数据集包含10个完整操作片段,总计3767帧时序数据,以30fps的采样频率记录机械臂的连续运动轨迹。数据以分块形式存储于parquet格式文件中,每个数据块容纳1000帧记录,确保数据管理的系统性与高效性。
特点
该数据集的核心特征在于多模态数据融合,同步采集六自由度机械臂的关节位置控制信号与三路视觉观测信息。动作空间涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪开合六维连续控制量,观测数据包含顶部、腕部和前置三个视角的RGB视频流,分辨率分别为360×640与480×640像素。这种多传感器协同记录方式为模仿学习算法提供了丰富的状态表征基础。
使用方法
研究人员可通过LeRobot代码库直接加载该数据集进行机器人技能学习研究。数据集采用标准化的特征字典结构组织,支持按片段索引读取动作-观测对序列。训练时可利用多视角图像观测构建视觉表征,结合关节空间动作标签进行策略网络训练。数据集已预划分为训练集,包含全部10个操作片段,适用于端到端的模仿学习或强化学习算法验证。
背景与挑战
背景概述
机器人操作任务数据集作为强化学习与机器人控制交叉领域的重要资源,其发展源于对智能体在复杂环境中执行物理交互能力的研究需求。pick_and_place数据集由HuggingFace的LeRobot项目团队构建,采用Apache 2.0开源协议,聚焦于多视角视觉感知与六自由度机械臂控制的协同学习。该数据集通过集成顶部、腕部与前部三路高清视频流,配合关节角度传感器数据,为模仿学习与端到端策略训练提供了结构化标注。其技术架构基于分块存储的Parquet格式与AV1视频编码,体现了现代机器人数据集对多模态时序数据的高效处理能力。
当前挑战
在机器人抓取与放置任务领域,模型需克服动态环境下的目标定位精度、多关节运动规划复杂性以及视觉-动作映射的不确定性等核心难题。数据集构建过程中面临多传感器时序同步的技术挑战,包括三路视频流与机械臂状态数据的毫秒级对齐需求。数据采集环节需解决机械臂运动轨迹平滑性与任务多样性的平衡问题,同时高分辨率视频数据的实时压缩与存储优化构成了工程实施的重要瓶颈。此外,跨视角视觉特征的一致性标注与动作空间的连续化表示也对数据质量提出了严格要求。
常用场景
经典使用场景
在机器人操作领域,pick_and_place数据集为机械臂抓取与放置任务提供了丰富的训练样本。该数据集通过多视角视觉观测与关节状态数据,完整记录了机械臂执行物体抓取、移动和放置的全过程轨迹。研究人员可利用这些时序数据训练机器人模仿学习模型,使机械臂能够精准复现复杂的抓取动作序列。
实际应用
在工业自动化场景中,该数据集支撑的算法可应用于物流分拣、生产线装配等实际任务。基于数据驱动的控制策略使机器人能够适应不同形状物体的抓取需求,提升生产线的柔性与效率。多视角视觉系统的引入更增强了机器人在复杂环境下的操作可靠性,为智能制造提供了关键技术支撑。
衍生相关工作
围绕该数据集已衍生出多项机器人学习领域的创新研究。包括基于时空注意力的动作预测模型、多模态感知的强化学习框架,以及跨任务泛化的迁移学习方法。这些工作通过利用数据集丰富的多模态特性,不断突破机器人技能学习的性能边界,形成了持续发展的技术生态。
以上内容由遇见数据集搜集并总结生成



