pickplace4
收藏Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/vobotics/pickplace4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的,专为机器人技术领域设计,采用Apache-2.0许可证。数据集包含52个总剧集,28237帧,涉及单一任务。数据以parquet格式存储,总数据文件大小为100MB,视频文件大小为200MB,帧率为30FPS。数据集结构包括训练分割(0:52)。特征包括动作和观察状态(各6个浮点型关节位置),以及来自侧视和前视的视频图像(480x640分辨率,3通道,AV1编码)。此外,还包含时间戳、帧索引、剧集索引、索引和任务索引等元数据。适用于机器人控制、行为学习等任务。
创建时间:
2026-04-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: pickplace4
- 托管平台: Hugging Face
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
- 许可证: Apache-2.0
- 任务类别: 机器人学
数据集规模
- 总情节数: 52
- 总帧数: 28237
- 总任务数: 1
- 数据文件大小: 100 MB
- 视频文件大小: 200 MB
- 帧率: 30 FPS
- 数据分块大小: 1000
- 代码库版本: v3.0
数据结构
- 数据格式: Parquet 文件
- 数据文件路径模式:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频文件路径模式:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4 - 数据划分: 全部数据用于训练 (
train: 0:52)
数据特征
数据集包含以下特征字段:
动作
- 数据类型:
float32 - 形状:
[6] - 描述: 包含6个关节的位置指令:
shoulder_pan.posshoulder_lift.poselbow_flex.poswrist_flex.poswrist_roll.posgripper.pos
观测状态
- 数据类型:
float32 - 形状:
[6] - 描述: 包含6个关节的当前位置状态,名称与动作特征相同。
侧视图像观测
- 数据类型: 视频
- 形状:
[480, 640, 3](高度, 宽度, 通道) - 视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否
前视图像观测
- 数据类型: 视频
- 形状:
[480, 640, 3](高度, 宽度, 通道) - 视频信息: 与侧视图像观测完全相同
元数据
- 时间戳:
float32类型,形状[1] - 帧索引:
int64类型,形状[1] - 情节索引:
int64类型,形状[1] - 索引:
int64类型,形状[1] - 任务索引:
int64类型,形状[1]
机器人信息
- 机器人类型: so_follower
补充说明
- 主页链接和论文引用信息暂未提供。
- BibTeX 引用格式暂未提供。
搜集汇总
数据集介绍

构建方式
在机器人操作领域,数据集的构建往往依赖于真实物理系统的交互记录。pickplace4数据集通过LeRobot平台,采用so_follower型机器人执行拾放任务,系统采集了52个完整操作序列,总计28237帧数据。数据以分块形式存储于Parquet文件中,每块包含1000帧,同时配有同步录制的多视角视频流,帧率为30fps,确保了时序信息与视觉观测的精确对齐。
特点
该数据集的核心特征在于其多模态融合的数据结构,不仅包含六自由度关节位置的动作指令与状态观测,还整合了侧视与前置摄像头的RGB视频流。数据维度设计严谨,动作与状态向量均以浮点型数值表征机械臂各关节位姿,而图像数据采用AV1编码的480x640分辨率视频,兼顾了存储效率与视觉细节。元数据中嵌入了时间戳、帧索引与任务标识,为序列建模与强化学习研究提供了结构化支撑。
使用方法
研究者可通过HuggingFace平台直接加载数据集,利用预定义的Parquet文件路径与视频流接口进行访问。数据按训练集划分,涵盖全部52个任务序列,适用于机器人模仿学习、行为克隆及视觉运动策略训练等场景。典型使用流程包括解析动作-观测对、提取视频帧序列,并依据时间戳实现多模态数据同步,进而构建端到端的控制模型或进行轨迹分析。
背景与挑战
背景概述
在机器人学习领域,模仿学习与强化学习的研究依赖于高质量、多模态的真实世界交互数据。pickplace4数据集由LeRobot项目团队构建,专注于机器人抓取与放置任务,旨在为机器人操作技能的学习提供丰富的演示数据。该数据集通过搭载多关节机械臂的机器人平台采集,包含52个完整操作序列、超过28000帧的同步状态与视觉观测数据,涵盖了机器人关节位置、夹爪状态以及多视角视频流,为端到端策略学习与行为克隆算法提供了关键训练资源。其设计体现了当前机器人学从仿真向真实环境迁移的研究趋势,致力于解决复杂操作任务中泛化能力不足的挑战。
当前挑战
pickplace4数据集所针对的核心挑战在于机器人操作任务中的泛化与适应性学习问题,即如何让机器人从有限演示中学会在动态、非结构化环境中可靠执行抓取与放置动作。构建过程中的挑战主要包括多模态数据的高效同步与对齐,确保关节状态、视觉帧与时间戳的一致性;以及真实世界数据采集的复杂性,如环境光照变化、物体姿态多样性及机械臂控制噪声带来的数据偏差。此外,数据规模相对有限,任务单一,可能制约了模型在更广泛操作场景下的泛化性能评估。
常用场景
经典使用场景
在机器人操作领域,pickplace4数据集为机械臂的拾取与放置任务提供了丰富的多模态数据资源。该数据集通过记录六自由度机械臂在真实环境中的动作序列,结合侧视与前置摄像头捕捉的高帧率视频,为研究者构建端到端的模仿学习模型奠定了数据基础。经典应用场景聚焦于训练机器人从视觉观察中直接推断关节控制指令,实现精准的物体抓取与定位操作,从而推动视觉伺服控制技术的实证研究。
解决学术问题
该数据集有效应对了机器人学中样本效率低下与泛化能力不足的长期挑战。通过提供包含状态、动作与视觉观测的同步序列,它支持了基于深度学习的策略蒸馏、行为克隆以及强化学习算法的验证与改进。其结构化标注解决了模仿学习中动态对齐与多模态融合的难题,为探索跨场景的机器人技能迁移提供了关键实验平台,显著降低了真实机器人实验的成本与风险。
衍生相关工作
围绕pickplace4数据集,学术界衍生出一系列专注于机器人模仿学习与视觉运动控制的经典研究。这些工作包括基于时空注意力机制的策略网络设计、多视角视觉特征的融合方法探索,以及利用序列建模技术提升动作预测的平滑性与准确性。部分研究进一步将数据集扩展至元学习与少样本学习框架,促进了机器人快速适应新任务的能力,为后续大规模机器人操作数据集的构建与标准化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



