pick-and-place-fruits_annotated

Hugging Face2025-11-21 更新2025-11-22 收录

下载链接：

https://huggingface.co/datasets/NONHUMAN-RESEARCH/pick-and-place-fruits_annotated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人学数据集，包含了一个名为bi_piper_follower的机器人类型，总共有235个剧集，213837帧图像。数据集分为训练集，所有数据以Parquet格式存储，视频以MP4格式存储。数据集的特征包括机器人的动作和状态，以及来自左侧、顶部和右侧摄像头的图像。每个图像的尺寸为376x672，包含3个通道，使用av1编码，没有音频。

创建时间：

2025-11-21

原始信息汇总

数据集概述

基本信息

名称: pick-and-place-fruits_annotated
许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot

数据集规模

总任务数: 1
总回合数: 235
总帧数: 213,837
帧率: 50 FPS
数据切分: 训练集 (0:235)

存储信息

数据文件格式: Parquet
数据文件大小: 100 MB
视频文件大小: 500 MB
块大小: 1000
代码库版本: v3.0

机器人配置

机器人类型: 双臂跟随机器人 (bi_piper_follower)

数据特征

动作特征

数据类型: float32
维度: 14
关节位置:
- 左肩平移、左肩抬升、左肘弯曲、左前臂旋转、左腕弯曲、左腕旋转、左夹爪
- 右肩平移、右肩抬升、右肘弯曲、右前臂旋转、右腕弯曲、右腕旋转、右夹爪

观测特征

状态观测:
- 数据类型: float32
- 维度: 14
- 包含与动作特征相同的14个关节位置
图像观测:
- 左侧摄像头:
  - 分辨率: 376×672×3
  - 视频编码: AV1
  - 像素格式: yuv420p
  - 非深度图
- 顶部摄像头:
  - 分辨率: 376×672×3
  - 视频编码: AV1
  - 像素格式: yuv420p
  - 非深度图
- 右侧摄像头:
  - 分辨率: 376×672×3
  - 视频编码: AV1
  - 像素格式: yuv420p
  - 非深度图

索引特征

时间戳: float32 (1维)
帧索引: int64 (1维)
回合索引: int64 (1维)
数据索引: int64 (1维)
任务索引: int64 (1维)

文件路径格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，pick-and-place-fruits_annotated数据集通过LeRobot平台系统构建，采用双机械臂系统采集真实环境下的水果抓取与放置任务数据。数据以50帧/秒的速率记录，包含235个完整操作序列，总计213,837帧动作数据。原始数据被分割为容量均衡的区块，存储为Parquet格式文件，同时配备多视角视频流以保持时空同步性。

使用方法

研究人员可通过标准数据加载接口直接读取Parquet格式的轨迹数据，利用预定义的特征字段重建机械臂运动序列。数据集采用分块存储机制，支持流式加载大规模视频帧与状态数据。典型应用场景包括基于视觉的强化学习算法验证、多模态动作预测模型训练，以及双臂协调控制的泛化性能评估。

背景与挑战

背景概述

在机器人操作领域，抓取与放置任务长期被视为评估智能体环境交互能力的关键基准。pick-and-place-fruits_annotated数据集由HuggingFace的LeRobot项目团队构建，专门针对双臂协作机器人执行水果分拣任务的行为模式进行系统记录。该数据集通过235个完整交互序列、21万余帧多视角视觉数据与14维关节空间动作轨迹，为模仿学习与强化学习算法提供了高维度状态-动作映射关系的实证基础。其采用Apache 2.0开源协议的特性，显著降低了机器人学习研究的入门门槛，推动社区在真实物理系统仿真验证方面的发展进程。

当前挑战

该数据集致力于解决动态环境下机器人精细操作的可泛化性问题，其核心挑战在于跨视角视觉表征与多关节协同控制的耦合建模。数据构建过程中面临传感器时序对齐的工程难题，需确保50Hz采样的双目视觉流与14自由度机械臂轨迹的严格同步。此外，水果形态多样性导致的抓取策略变异，要求标注系统能捕捉非刚性物体的物理交互特征。数据规模方面，213837帧视频与动作对的存储优化，亦对分布式处理架构提出严峻考验。

常用场景

经典使用场景

在机器人操作领域，该数据集通过双机械臂协同作业记录，为模仿学习算法提供了丰富的训练样本。其多视角视觉数据与关节位置轨迹的同步采集，使得研究者能够构建端到端的抓取策略模型，特别适用于水果分拣这类需要精细动作规划的任务场景。

解决学术问题

该数据集有效解决了机器人操作中动作表示学习与多模态感知融合的难题。通过提供长达21万帧的连续操作序列，它支持从高维视觉输入到低维动作空间的映射研究，显著推进了基于视觉的机器人控制策略在非结构化环境中的泛化能力。

实际应用

在农业自动化场景中，该数据集支撑的水果分拣系统可实现高效精准的果实采收。基于数据驱动的控制策略能适应不同果实的形态差异，通过实时调整抓取力度与轨迹，有效降低果蔬在自动化处理过程中的物理损伤率。

数据集最近研究