so101_pp_box_3col_bg_gray_300

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/aShunSasaki/so101_pp_box_3col_bg_gray_300

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集采用apache-2.0许可证，包含100个episodes，总计70777帧，涉及1个任务。数据以parquet文件形式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括训练集划分（0:100），数据路径和视频路径分别指向parquet和mp4文件。特征描述包括动作和观察状态（各6个浮点型关节位置数据）、手腕摄像头图像（720x1280x3的视频数据）、时间戳、帧索引、episode索引、索引和任务索引。数据集适用于机器人控制、行为学习等任务。

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: so101_pp_box_3col_bg_gray_300
创建工具: 使用 LeRobot 创建。
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总情节数: 100
总帧数: 70777
数据块大小: 1000
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 200 MB
代码库版本: v3.0
机器人类型: so_follower
数据分割: 训练集 (train): 0:100
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作 (action)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态 (observation.state)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像 (observation.images.wrist)
- 数据类型: 视频
- 形状: [720, 1280, 3]
- 维度名称: 高度, 宽度, 通道数
- 视频信息:
  - 视频高度: 720
  - 视频宽度: 1280
  - 视频编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: 否
  - 视频帧率: 30
  - 视频通道数: 3
  - 是否包含音频: 否
时间戳 (timestamp)
- 数据类型: float32
- 形状: [1]
- 名称: 无
帧索引 (frame_index)
- 数据类型: int64
- 形状: [1]
- 名称: 无
情节索引 (episode_index)
- 数据类型: int64
- 形状: [1]
- 名称: 无
索引 (index)
- 数据类型: int64
- 形状: [1]
- 名称: 无
任务索引 (task_index)
- 数据类型: int64
- 形状: [1]
- 名称: 无

相关链接

数据集可视化: https://huggingface.co/spaces/lerobot/visualize_dataset?path=aShunSasaki/so101_pp_box_3col_bg_gray_300

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于真实的物理交互过程。so101_pp_box_3col_bg_gray_300数据集通过LeRobot平台精心采集，记录了机械臂执行特定任务时的连续操作序列。该数据集包含100个完整的情节，总计超过七万帧数据，以30帧每秒的速率同步捕获机械臂的关节状态、动作指令以及腕部摄像头的视觉信息。数据以分块Parquet格式存储，并辅以对应的MP4视频文件，确保了多模态数据在时间维度上的严格对齐，为后续的机器人学习研究提供了结构化的原始素材。

特点

该数据集在机器人模仿学习与强化学习场景中展现出鲜明的多模态特性。其核心特征在于融合了六维关节空间的动作指令与对应的状态观测，同时集成了高分辨率的腕部视觉图像，形成状态-动作-视觉的联合表征。数据维度设计严谨，动作与状态空间均覆盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置六个自由度，视觉数据则以1280x720分辨率的三通道RGB格式呈现。这种多维度的数据整合为端到端的策略学习提供了丰富的感知与决策上下文，尤其适用于需要视觉反馈的复杂操作任务。

使用方法

研究人员可利用该数据集进行机器人行为克隆、视觉伺服控制或离线强化学习等任务的模型训练与评估。数据已预分为训练集，使用者可通过加载Parquet文件直接访问结构化的特征张量，包括动作、状态、图像及时间索引等字段。借助LeRobot提供的可视化工具，能够直观浏览数据序列与同步视频，辅助模型调试与数据分析。在实际应用中，建议依据时间戳与帧索引确保数据时序的一致性，并利用关节状态与视觉观测的对应关系，构建从感知到动作的映射模型，以推动机器人自主操作能力的发展。

背景与挑战

背景概述

在机器人学习领域，模仿学习与视觉运动控制是推动智能体自主执行复杂任务的核心研究方向。so101_pp_box_3col_bg_gray_300数据集由LeRobot项目团队于近期构建，旨在为机器人操作任务提供高质量的多模态演示数据。该数据集聚焦于机械臂的轨迹规划与抓取操作，通过整合关节状态、时序信息及高分辨率腕部摄像头图像，为研究者开发端到端的机器人策略模型奠定了数据基础。其采用Apache 2.0开源协议，体现了开放科学的精神，有望加速机器人模仿学习算法的迭代与验证。

当前挑战

该数据集致力于解决机器人模仿学习中视觉-动作映射的泛化难题，其核心挑战在于如何从有限的演示样本中学习出能够适应环境动态变化的鲁棒策略。具体而言，数据采集过程中需确保机械臂动作的平滑性与安全性，同时维持图像观测的视觉一致性与时空对齐。此外，多模态数据的同步存储与高效管理，以及高维视频数据的压缩与检索，均为构建大规模机器人数据集带来了显著的技术障碍。

常用场景

经典使用场景

在机器人学习领域，so101_pp_box_3col_bg_gray_300数据集为模仿学习与强化学习算法提供了关键支持。该数据集通过记录机械臂在特定任务中的关节位置、视觉观察及时间戳信息，构建了完整的动作-状态序列。研究人员能够利用这些数据训练模型，使机器人学习从原始视觉输入到关节动作的映射关系，从而在仿真或真实环境中执行精细的抓取或操作任务。

衍生相关工作

围绕该数据集，衍生出了一系列经典研究工作，主要集中在视觉运动策略学习与多任务泛化方面。例如，基于LeRobot框架的后续研究探索了如何利用此类数据训练通用抓取模型，或结合元学习技术提升机器人对新物体的快速适应能力。这些工作不仅扩展了数据集的学术价值，还为开源机器人社区提供了可复现的基准，推动了端到端机器人学习方法的标准化与普及。

数据集最近研究