eval_pick_and_place

Hugging Face2026-01-05 更新2026-01-06 收录

下载链接：

https://huggingface.co/datasets/naonaon/eval_pick_and_place

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。包含3个episodes，1475帧数据，涉及1个任务。数据集包含机器人的动作状态（如shoulder_pan.pos、shoulder_lift.pos、elbow_flex.pos、wrist_flex.pos、wrist_roll.pos、gripper.pos）、观察状态（如两个摄像头的图像数据，分辨率为480x640，3通道）以及时间戳、帧索引、episode索引等信息。数据以parquet格式存储，视频以mp4格式存储，帧率为30fps。

创建时间：

2026-01-04

原始信息汇总

数据集概述

基本信息

数据集名称: eval_pick_and_place
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学

数据集规模与结构

总情节数: 3
总帧数: 1475
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
数据分割: 训练集 (0:3)

数据特征

数据集包含以下主要特征：

动作

数据类型: float32
形状: [6]
描述: 包含机器人6个关节的位置信息：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含与动作相同的6个关节位置信息。

图像观测

相机1 (observation.images.camera1):

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道: 3
- 无音频

相机2 (observation.images.camera2):

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息: 与相机1相同

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

文件结构

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息文件: meta/info.json

技术详情

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，eval_pick_and_place数据集依托LeRobot平台构建，通过so101_follower型机器人执行拾取与放置任务采集数据。该数据集以30帧每秒的速率记录多模态信息，涵盖3个完整任务片段，共计1475帧数据。数据以Parquet格式分块存储，每块约1000帧，并同步保存对应的高清视频流，确保了时序动作与视觉观测的精确对齐。

特点

该数据集的核心特征在于其丰富的多模态结构，不仅包含六自由度机械臂的关节位置动作与状态观测，还整合了双摄像头视角的RGB视频流。数据维度设计严谨，动作与状态均以浮点数组刻画关节空间，而图像数据则采用AV1编码的480x640分辨率视频，有效平衡了存储效率与视觉保真度。此外，时间戳、帧索引与任务索引等元数据为序列分析提供了坚实基础。

使用方法

研究人员可通过LeRobot框架加载该数据集，利用其标准化的Parquet数据接口进行高效读取。数据集适用于机器人模仿学习与强化学习算法的训练与评估，特别是拾取放置任务的策略泛化研究。用户可依据帧索引或任务索引提取特定片段，结合动作序列与双视角视觉输入，构建端到端的控制模型。视频数据亦支持行为分析与视觉表征学习等跨模态应用。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、结构化的真实世界交互数据集作为支撑。eval_pick_and_place数据集应运而生，它由Hugging Face的LeRobot项目创建，旨在为机器人抓取与放置任务提供基准评估资源。该数据集聚焦于解决机器人操作中的核心问题，即如何从多模态观察中学习精确的连续控制策略，其包含的关节状态、视觉图像与动作指令序列，为算法在复杂动态环境中的泛化能力与鲁棒性验证提供了关键数据基础。

当前挑战

该数据集所针对的机器人抓放任务，面临环境感知不确定性、动作序列长期依赖以及跨场景泛化等多重挑战。在构建过程中，数据采集需协调高维状态空间与连续动作空间的同步记录，确保多摄像头视觉流与机械臂关节数据的精确时序对齐。同时，大规模真实机器人交互数据的获取成本高昂，且需处理传感器噪声、机械误差以及任务演示的多样性与一致性平衡问题，这对数据集的规模、质量与标注完整性构成了显著制约。

常用场景

经典使用场景

在机器人操作领域，eval_pick_and_place数据集为机器人抓取与放置任务的评估提供了标准化基准。该数据集通过记录机械臂在模拟或真实环境中的关节位置、视觉图像及时间戳，构建了完整的交互轨迹，常用于训练和验证模仿学习或强化学习算法。研究者利用其多模态观测数据，能够系统分析机器人在复杂操作中的决策过程，优化动作策略，从而提升任务执行的精确性与鲁棒性。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，主要集中在机器人模仿学习与视觉运动控制领域。例如，基于其多模态数据开发的深度预测模型，能够从视觉输入中推断动作序列；同时，该数据集也催生了针对稀疏奖励环境下策略优化的新算法。这些工作进一步拓展了数据集中状态表示与动作生成的理论框架，推动了机器人操作技术的创新与应用。

数据集最近研究