so101_test

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/bursomi/so101_test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含机器人操作的 dataset，总共有2个剧集，1787个帧，1个任务，4个视频和1个数据块。数据集以parquet文件格式存储，并提供了对应的视频文件。每个剧集包含多个帧，每个帧包含了机器人的动作、状态、图像等信息。动作和状态包括主肩部的旋转和抬起、肘部的弯曲、手腕的弯曲和扭转以及主爪子的开合。图像包括来自笔记本电脑和手机的480x640像素的彩色图像。数据集的帧率为30fps，没有音频。

创建时间：

2025-05-11

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot, so101, tutorial
代码库版本: v2.1
机器人类型: so101

数据集结构

总集数: 2
总帧数: 1787
总任务数: 1
总视频数: 4
总块数: 1
块大小: 1000
帧率: 30 fps
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

action:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
observation.state:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
observation.images.laptop:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 fps
  - 通道数: 3
  - 是否有音频: false
observation.images.phone:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 fps
  - 通道数: 3
  - 是否有音频: false
timestamp:
- 数据类型: float32
- 形状: [1]
frame_index:
- 数据类型: int64
- 形状: [1]
episode_index:
- 数据类型: int64
- 形状: [1]
index:
- 数据类型: int64
- 形状: [1]
task_index:
- 数据类型: int64
- 形状: [1]

分割信息

训练集: 0:2

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

so101_test数据集依托LeRobot框架构建，采用模块化设计理念将机器人操作数据以结构化形式存储。技术实现上通过SO101型机器人采集多模态操作数据，包含1787帧30fps的视频流及对应的6自由度机械臂动作参数，原始数据经AV1编码压缩后以parquet列式存储格式分块保存，每块包含1000帧数据以确保高效存取。

特点

该数据集显著特点在于其多维时空特征的组织形式，不仅包含双视角（笔记本电脑与手机）的480×640像素RGB视频流，还同步记录机械臂关节角度、夹爪状态等6维动作向量。数据采用严格的时空对齐机制，每个帧索引关联特定时间戳和任务编号，形成完整的操作闭环验证体系。元数据架构采用分层命名规范，将观测状态、动作指令等要素通过点分命名法实现语义化标识。

使用方法

使用该数据集时需通过HuggingFace接口加载parquet数据块，视频流可通过指定episode_chunk和episode_index路径解码。典型应用场景包括机器人模仿学习算法的训练验证，研究者可提取observation.images下的视觉特征与action空间的动作序列构建端到端模型。数据分块设计支持流式处理，适合分布式训练框架调用。

背景与挑战

背景概述

so101_test数据集作为机器人技术领域的重要资源，由LeRobot团队基于开源框架构建，旨在推动机器人控制与感知算法的研究。该数据集聚焦于多模态数据采集，整合了机械臂关节状态、视觉观测及时间序列信息，为机器人动作规划与状态估计提供了丰富的实验素材。其核心价值在于通过标准化数据格式与结构化存储方案，降低了机器人学习任务的复现门槛，对促进仿生控制与强化学习算法的实际应用具有显著意义。

当前挑战

该数据集面临的核心挑战体现在算法与应用两个层面：在算法层面，如何从异构传感器数据（如6自由度机械臂动作与双视角视觉流）中提取有效特征以提升策略泛化能力，仍存在模型架构设计的难题；在数据构建层面，高精度时间同步、多视角视频对齐以及大规模机械臂运动数据的质量控制，均为数据集构建过程中的技术瓶颈。此外，当前数据规模有限（仅含2个完整任务片段），可能制约复杂场景下的模型验证深度。

常用场景

经典使用场景

在机器人控制与学习领域，so101_test数据集为研究者提供了一个标准化的测试平台。该数据集通过记录机械臂的关节角度、夹爪状态以及多视角视频数据，为模仿学习和强化学习算法的训练与评估提供了丰富素材。其结构化的动作空间和观测空间设计，使得研究者能够专注于算法开发而非数据预处理。

衍生相关工作

基于该数据集衍生的经典研究包括：基于时空注意力机制的机械臂动作预测模型、多视角视觉特征融合的深度强化学习框架，以及跨模态表示学习的对比学习方法。这些工作发表在ICRA、IROS等机器人顶级会议，推动了机器人感知与控制技术的边界拓展。

数据集最近研究