so101_tower

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/shenjianliang/so101_tower

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个与机器人学相关的数据集，包含多个视频片段，每个片段包含多个动作和观察状态。数据集总共包含15个剧集，2526个帧，30个视频，分为训练集。每个视频包含前视和手腕视角的图像，以及相应的动作状态和帧索引等信息。数据集遵循Apache-2.0许可证。

创建时间：

2025-07-29

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学 (Robotics)
标签: LeRobot, so101, tutorial

数据集描述

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

数据集结构

数据文件格式: Parquet
数据文件路径: data/*/*.parquet
元数据文件: meta/info.json

元数据详情

代码库版本: v2.1
机器人类型: so101
总集数: 15
总帧数: 2526
总任务数: 1
总视频数: 30
总块数: 1
块大小: 1000
帧率: 30 fps
数据分割:
- 训练集: 0:15
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (observation.images.front):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 30 fps
  - 通道数: 3
  - 无音频
观测图像 (observation.images.wrist):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 同 front 图像
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so101_tower数据集的构建依托于LeRobot开源框架，采用先进的实验数据采集方法。该数据集包含15个完整操作序列，总计2526帧数据，以30fps的采样频率记录机械臂运动轨迹。数据存储采用分块式结构，每个数据块包含1000帧，以Parquet格式高效存储，同时配备双视角视频记录（前视和腕部视角），确保动作与视觉信息的同步性。

使用方法

研究者可通过解析Parquet文件直接获取结构化数据，配合视频路径映射实现多模态分析。训练集包含全部15个操作序列，数据按episode_index字段自然分片，支持流式加载。典型应用场景包括机械臂动作预测模型训练，通过observation.state字段获取当前状态，action字段验证预测结果。视频数据采用AV1编码，研究者需注意配置对应解码器以解析视觉信息。

背景与挑战

背景概述

so101_tower数据集作为机器人技术领域的重要资源，由LeRobot团队开发并发布于HuggingFace平台。该数据集聚焦于机械臂控制与视觉感知的协同研究，收录了15个完整操作序列，共计2526帧多模态数据，涵盖6自由度机械臂运动参数及双视角视觉信息。其核心价值在于为机器人动作规划与场景理解提供了真实世界的交互数据，特别是通过前视与腕部摄像头同步采集的480p视频流，为研究三维空间中的物体操作任务建立了基准。Apache-2.0许可协议确保了其在学术与工业界的广泛应用潜力。

当前挑战

该数据集面临双重技术挑战：在应用层面，如何从有限的任务样本（仅1种任务类型）中提取通用性特征以应对多样化操作场景，成为算法泛化能力的关键考验；在构建层面，多传感器数据（关节角度、双路视频、时间戳）的精确同步与标定，以及AV1编码视频流与浮点型动作数据的跨模态对齐，对数据采集系统提出了严苛的实时性要求。30fps的连续视频流与6维动作空间的匹配精度问题，进一步凸显了动态场景下时空一致性保持的工程难度。

常用场景

经典使用场景

在机器人控制与学习领域，so101_tower数据集以其丰富的机械臂动作记录和多视角视觉数据，成为研究机器人任务学习的经典基准。该数据集通过捕捉SO101型机械臂执行堆叠任务时的关节角度、末端执行器状态以及前后置摄像头画面，为模仿学习和强化学习算法提供了高保真的训练环境。其30Hz同步采样的多模态特性，尤其适合研究视觉-动作联合建模中的时序对齐问题。

解决学术问题

该数据集有效解决了机器人领域三大核心问题：跨模态表征学习中的传感器融合难题，通过同步记录关节编码器与双视角视频数据；长时序动作预测的评估瓶颈，提供连续2526帧的动作-状态轨迹；以及样本效率提升的研究需求，其15个完整任务episode支持小样本学习方法验证。这些特性推动了从端到端策略学习到分层控制架构的算法创新。

实际应用

工业自动化场景中，该数据集支撑了智能分拣系统的开发，其记录的六自由度机械臂精确运动轨迹可直接迁移到物流码垛场景。医疗机器人领域借鉴其多视角视觉反馈机制，用于手术器械的视觉伺服控制。教育机器人则利用其标准化任务结构，开发机械臂编程的交互式教学系统。

数据集最近研究