so101_pick_place_2

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/tinkhireeva/so101_pick_place_2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于LeRobot项目的机器人操作数据集，包含了30个视频片段，总共6805帧，每个视频片段包含了机器人的动作和状态数据，以及前后视角的图像数据。数据集格式为parquet，视频编码为av1，分辨率为480x640，帧率为30fps。数据集遵循Apache-2.0许可协议。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

名称: so101_pick_place_2
许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 60
总片段数: 30
总帧数: 6805
片段大小: 1000
帧率: 30 fps
数据格式: Parquet
数据分割: 训练集（0:30）

数据特征

动作特征

名称: action
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态特征

名称: observation.state
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测特征

上方视角图像

名称: observation.images.up
数据类型: video
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 帧率: 30
- 通道数: 3
- 音频: 无

前方视角图像

名称: observation.images.front
数据类型: video
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 帧率: 30
- 通道数: 3
- 音频: 无

元数据特征

timestamp: float32, 形状[1]
frame_index: int64, 形状[1]
episode_index: int64, 形状[1]
index: int64, 形状[1]
task_index: int64, 形状[1]

技术信息

代码库版本: v2.1
机器人类型: so101_follower
数据路径格式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径格式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据采集中，该数据集通过LeRobot框架系统性地记录了30个完整操作片段，总计6805帧视觉运动数据。采用分块存储策略将数据组织为Parquet格式文件，每个数据块包含1000帧以优化存取效率。数据采集频率设定为30Hz，同步捕获机械臂六维关节状态、双视角RGB图像及时间戳信息，确保了时空一致性。

特点

该数据集的核心价值体现在多模态数据的精细结构化，不仅包含六自由度机械臂的关节角度与夹爪状态，还提供俯视与前视双摄像头采集的480x640分辨率视频流。所有传感器数据均带有精确的时间对齐标识，支持帧级精确检索。数据维度设计充分考虑了机器人模仿学习需求，动作空间与状态空间采用同构向量表示，便于策略网络建模。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，利用标准接口访问分块存储的Parquet文件。每个数据样本包含同步的动作指令、关节状态观测和双视角图像，支持端到端模仿学习算法训练。建议按照官方提供的meta/info.json结构说明解析特征字段，特别注意视频数据需通过专用解码器处理，动作与观测数据的对应关系可通过帧索引精确对齐。

背景与挑战

背景概述

机器人操作任务数据集so101_pick_place_2由LeRobot研究团队构建，专注于解决工业机器人抓取与放置这一核心研究问题。该数据集采用Apache 2.0开源协议，包含30个完整操作序列和6805帧多模态数据，通过六自由度机械臂的关节状态控制与双视角视觉观测，为模仿学习与强化学习算法提供高质量训练资源。其结构化数据组织方式与标准化特征定义，显著推动了机器人操作技能学习的可复现性研究进展。

当前挑战

该数据集致力于解决高精度物体抓取任务中的动作规划与视觉感知耦合难题，其构建过程面临多模态数据同步采集的技术挑战。具体包括六维连续动作空间与双视角图像数据的时间对齐精度要求，以及机械臂运动轨迹与视觉观测在物理仿真环境中的一致性保障。此外，有限的任务场景多样性（仅包含单一任务类型）也制约了算法在复杂操作环境中的泛化能力验证。

常用场景

经典使用场景

在机器人操作学习领域，so101_pick_place_2数据集主要应用于机械臂抓取与放置任务的算法训练与验证。该数据集通过多视角视觉观测与六维关节动作数据的同步记录，为模仿学习与强化学习提供了丰富的训练样本。研究者可基于该数据集构建端到端的控制策略，使机器人能够从视觉输入直接映射到关节空间动作，实现精准的物品抓取与定位放置。

解决学术问题

该数据集有效解决了机器人操作中视觉-动作映射的学术难题，为高维连续动作空间下的策略学习提供了基准测试环境。通过提供真实机械臂的运动轨迹与多视角视觉反馈，它支持研究者探索跨模态表征学习、动作预测精度提升以及样本效率优化等核心问题。该资源显著推动了机器人操作技能泛化能力的研究进展，为构建适应复杂环境的智能操作系统奠定了数据基础。

衍生相关工作

围绕该数据集衍生了多项经典研究，包括基于时空注意力机制的抓取轨迹预测模型、多视角视觉特征融合网络以及模仿学习与元学习结合的快速适应方法。这些工作显著提升了机械臂在部分可观测环境下的操作性能，推动了机器人操作技能从仿真到实物的迁移学习研究，为后续的大规模操作数据集构建提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集