pick-and-place-basic

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/polaris314/pick-and-place-basic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专注于机器人技术领域，采用apache-2.0许可证。数据集包含10个完整的情节，总计2250帧，涉及1个任务。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为15fps。数据集结构包括训练集划分（0:10）。特征部分详细描述了动作、观察状态（包括机械臂各关节位置）、前视图像（480x640分辨率，3通道）、时间戳、帧索引、情节索引、任务索引等字段的数据类型和形状。该数据集适用于机器人控制、动作预测和视觉导航等任务的研究与开发。

创建时间：

2026-04-29

原始信息汇总

数据集概述

数据集名称：polaris314/pick-and-place-basic
任务类型：机器人学（Robotics）
许可证：Apache-2.0
创建工具：LeRobot

数据集规模

总片段数：10
总帧数：2250
总任务数：1
帧率（FPS）：15
数据文件大小：100 MB
视频文件大小：200 MB
块大小：1000
数据集切分：训练集（0:10）

数据集结构

数据集包含以下特征：

特征名称	数据类型	形状	说明
`action`	float32	[6]	机器人动作，包含6个关节位置（肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）
`observation.state`	float32	[6]	机器人状态，与动作维度相同
`observation.images.front`	视频	[480, 640, 3]	前视摄像头图像，分辨率480×640，RGB三通道，编码格式AV1，帧率15 FPS
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	片段索引
`index`	int64	[1]	索引
`task_index`	int64	[1]	任务索引

机器人类型

机器人：so_follower

数据存储路径

数据文件路径：data/*/*.parquet
视频文件路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于基础拾放任务（pick-and-place）。数据采用Parquet格式存储于`data/*/*.parquet`路径下，视频文件则存放于`videos/`目录。数据集包含10个完整演示回合（episodes），共计2250帧画面，所有数据均以15帧/秒的速率采集。机器人类型为so_follower，动作与观测状态均涵盖6维关节空间（包括肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置），并由一个前置摄像头以480×640分辨率记录视觉图像。数据已按1000帧为一块进行分块存储，训练集划分明确。

特点

该数据集的核心特色在于其紧凑且标准化的结构设计。仅10个回合与单一任务类型使其成为小型、高针对性的基础机器人操作数据集。数据特征包含动作（action）、观测状态（observation.state）、视觉图像（observation.images.front）及时序信息（时间戳、帧索引、回合索引），便于开展模仿学习研究。视频采用AV1编码并限定了帧率与分辨率，在保证视觉质量的同时控制了存储开销。整个数据集遵循Apache-2.0开源协议，便于学术交流与复现。

使用方法

用户可通过LeRobot库便捷加载该数据集，典型流程包括利用HuggingFace数据集可视化工具预览数据，或直接调用`lerobot` API读取Parquet与视频文件。由于数据集已分为训练集（全部10个回合），研究者可直接用于训练机器人行为克隆或强化学习算法。具体使用时，需注意`action`与`observation.state`具有相同的维度结构，便于构建状态-动作映射模型。视频数据可作为高维视觉输入，支持端到端策略学习。建议在加载时按需指定帧率或进行数据增强以提升模型泛化能力。

背景与挑战

背景概述

在机器人学习领域，模仿学习作为使机器人通过演示数据掌握复杂技能的核心范式，其发展高度依赖于高质量、标准化的数据集。pick-and-place-basic数据集由研究者利用Hugging Face的LeRobot框架创建，主要服务于基础抓取与放置任务的机器人操作学习。该数据集包含10个演示片段、共计2250帧数据，记录了六自由度机械臂so_follower在单一任务上的完整动作序列与视觉观测，采用15帧/秒的帧率。作为开放共享资源，它遵循Apache-2.0许可协议，为机器人操作研究中基准测试与算法验证提供了标准化的数据基础，降低了跨机构复现与对比的门槛。

当前挑战

数据集所应对的核心领域挑战在于基础操作任务中的模仿学习泛化性不足，现有模型常难以将有限的演示经验迁移至新的物体位置或环境配置，导致抓取成功率下降。在构建层面，挑战体现于数据采集的瓶颈：仅10个演示片段的小规模样本限制了模型对动作变体的学习能力；观测信息仅包含单目视觉与关节状态，缺乏深度图或触觉反馈等多模态线索，难以支撑精细操作；同时，固定15帧/秒的采样率可能遗漏高速运动下的关键动作细节，影响策略的时序精度。

常用场景

经典使用场景

在机器人操作领域，pick-and-place-basic数据集为模仿学习与行为克隆提供了标准化的基准。该数据集包含10个由SO_Follower机械臂执行的抓取放置任务轨迹，每个轨迹记录了6维关节空间的动作序列和同步的前视摄像头观测图像。研究者可借助其结构化的parquet格式数据，训练神经网络模型将从视觉输入到关节动作的映射关系，实现机器人对桌面物体的自主抓取与搬运。该场景广泛用于验证模型在低样本量下的泛化能力。

衍生相关工作

围绕该数据集衍生了多项扩展性工作，最具代表性的是基于LeRobot框架构建的多视角视觉-运动策略库。研究者通过扩充前视摄像头视角或增加力传感模态，发展了混合注意力机制的抓取姿态估计算法。另有经典工作利用该数据集的低维动作空间特性，验证了扩散策略在机器人细粒度操作中的性能边界。这些衍生工作不仅提高了任务成功率，还催生了面向模仿学习的动作序列平滑技术和数据增强方法，形成良性学术生态。

数据集最近研究