pick_and_place_2c_zone_4

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/nbirukov/pick_and_place_2c_zone_4

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人操作的数据集，包含了机器人的动作、状态、以及从上方和前方捕获的图像信息。数据集总共包含6个剧集，3363帧，12个视频，1个片段，每个片段大小为1000帧。数据集的帧率为30fps，并且数据被分为训练集。数据集采用Apache-2.0许可证。

创建时间：

2025-09-02

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 12
总片段数: 6
总帧数: 3363
片段大小: 1000
帧率: 30 fps
数据格式: Parquet
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
训练集划分: 0:6

特征描述

动作特征
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态特征
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像特征（上方视角）
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 高度480像素, 宽度640像素, AV1编码, YUV420p像素格式, 非深度图, 30fps, 3通道, 无音频
观测图像特征（前方视角）
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 高度480像素, 宽度640像素, AV1编码, YUV420p像素格式, 非深度图, 30fps, 3通道, 无音频
其他特征
- 时间戳: float32, 形状[1]
- 帧索引: int64, 形状[1]
- 片段索引: int64, 形状[1]
- 索引: int64, 形状[1]
- 任务索引: int64, 形状[1]

技术信息

代码库版本: v2.1
机器人类型: so101_follower

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

引用信息

论文: 未提供
BibTeX: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作任务领域，pick_and_place_2c_zone_4数据集依托LeRobot框架构建，通过实际部署so101_follower型机器人系统采集数据。该数据集涵盖6个完整操作片段，总计3363帧图像与动作序列，以30fps的帧率记录多视角视觉信息与关节控制指令，数据以分块parquet格式存储，确保时序一致性与高效存取。

特点

该数据集的核心特征体现在多模态数据融合与精细结构标注，同时提供自上而下与正面双视角480×640分辨率视频流，并完整记录6自由度机械臂关节位置及夹爪状态。动作与观测状态均以float32精度存储，支持端到端模仿学习研究，时间戳与帧索引精确对齐，为动态环境下的抓取放置任务提供高精度基准。

使用方法

研究者可通过加载parquet数据文件获取时序对齐的多模态序列，其中观测字段包含双视角图像、关节状态，动作字段提供6维控制指令。该数据集专为训练机器人操作策略设计，支持行为克隆、强化学习等算法验证，视频数据可用作视觉表征学习，帧索引机制便于构建滑动窗口采样或序列预测任务。

背景与挑战

背景概述

pick_and_place_2c_zone_4数据集作为机器人操作任务领域的重要数据资源，由LeRobot研究团队基于Apache 2.0开源协议构建。该数据集专注于机械臂抓取与放置操作的核心研究问题，通过记录六自由度机械臂的关节位置状态与多视角视觉观测数据，为模仿学习与强化学习算法提供高质量的训练样本。其采用先进的视频编码技术与结构化数据存储格式，显著提升了机器人技能学习的数据效率与泛化能力，对推动自主机器人操作系统的实际应用具有重要价值。

当前挑战

该数据集致力于解决机器人精细操作任务中的动作规划与视觉感知耦合难题，其核心挑战在于高维连续动作空间下的精确轨迹生成与多模态传感器数据的时序对齐。构建过程中面临机械臂控制指令与视觉观测数据的高频同步技术挑战，需确保6个关节角度的精确记录与双视角480p视频流的毫秒级时间戳匹配。此外，有限任务场景下的数据多样性不足与真实环境中的物理交互噪声，也对数据集的泛化能力提出了更高要求。

常用场景

经典使用场景

在机器人操作学习领域，pick_and_place_2c_zone_4数据集通过记录六轴机械臂的关节位置与双视角视觉数据，为模仿学习与强化学习算法提供标准化训练环境。该数据集典型应用于机器人抓取与放置任务的策略学习，研究者可利用其多模态观测数据（包括前视与上视图像及关节状态）训练端到端的控制策略，模拟真实工业场景中机械臂对特定区域物体的精准操作。

实际应用

工业自动化领域可利用该数据集训练智能分拣系统，通过学**械臂的抓取轨迹与视觉定位策略，实现物流仓储中的货物分类与码垛。医疗机器人领域可借鉴其多模态数据融合方法，开发手术器械精准操控系统。此外，农业机器人也可基于此类数据学习果实采摘的力学控制与避障策略。

衍生相关工作

该数据集衍生了基于Transformer的多模态策略网络研究，如ACT（Action Chunking Transformer）在连续动作预测中的应用。同时促进了视觉-动作耦合表征学习的发展，例如基于扩散模型的机器人动作生成算法。相关研究还包括针对时空一致性的视频预测模型，以及基于元学习的少样本操作技能迁移方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集