so101_grab_the_screw_SEE_2

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/peterrolfes/so101_grab_the_screw_SEE_2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人任务数据集，包含了10个剧集，共3578帧，1个任务，20个视频文件。数据集提供了机器人的行动和状态信息，以及顶部和前方的视频图像。所有数据以Parquet格式存储，并按照指定的路径格式组织。

This is a robotic task dataset consisting of 10 episodes, totaling 3578 frames, one single task, and 20 video files. The dataset provides the robot's action and state information, as well as top-view and front-view video images. All data is stored in Parquet format and organized according to the specified path structure.

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

数据集名称: peterrolfes/so101_grab_the_screw_SEE_2
任务类别: 机器人技术
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot

数据集规模

总任务数: 1
总片段数: 10
总帧数: 3578
总视频数: 20
数据块数: 1
块大小: 1000
帧率: 30fps

数据划分

训练集: 0:10

数据结构

特征字段

action
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.state
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.images.top
- 数据类型: video
- 形状: [1080, 1920, 3]
- 分辨率: 1080×1920
- 视频编码: av1
- 像素格式: yuv420p
- 非深度图
- 无音频
observation.images.front
- 数据类型: video
- 形状: [720, 1280, 3]
- 分辨率: 720×1280
- 视频编码: av1
- 像素格式: yuv420p
- 非深度图
- 无音频
timestamp
- 数据类型: float32
- 形状: [1]
frame_index
- 数据类型: int64
- 形状: [1]
episode_index
- 数据类型: int64
- 形状: [1]
index
- 数据类型: int64
- 形状: [1]
task_index
- 数据类型: int64
- 形状: [1]

文件结构

数据文件: data//.parquet
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

技术信息

代码库版本: v2.1
机器人类型: so101_follower

搜集汇总

数据集介绍

构建方式

在机器人操作任务研究领域，该数据集通过LeRobot框架系统采集，记录了SO101型机械臂执行拧螺丝任务的完整过程。数据以分块形式存储于Parquet文件中，包含10个独立任务片段，共计3578帧图像数据，采样频率为30赫兹。每个数据块涵盖机械臂关节角度、末端执行器状态以及多视角视觉信息，构建过程严格遵循时序一致性原则。

特点

该数据集最显著的特征在于其多模态数据融合架构，同时包含六自由度机械臂动作指令与双视角高清视频流。顶部摄像头提供1080p分辨率图像，前视摄像头采集720p画面，共同构成丰富的视觉感知信息。数据维度设计科学，动作空间与观测空间均采用六维浮点向量表征，完整覆盖肩部平移、肩部抬升、肘部弯曲、腕部屈伸、腕部旋转及夹爪开合等关键运动参数。

使用方法

研究人员可通过加载标准Parquet数据格式直接访问数据集，利用帧索引与时间戳实现精确的数据对齐。训练集包含全部10个任务片段，支持端到端的模仿学习与强化学习算法验证。多模态观测数据特别适用于跨模态表示学习研究，而规范化的动作空间设计则为策略迁移提供了便利条件。数据集遵循Apache 2.0开源协议，确保其在学术研究领域的广泛适用性。

背景与挑战

背景概述

在机器人操作任务研究领域，so101_grab_the_screw_SEE_2数据集由HuggingFace的LeRobot项目团队构建，专注于机械臂精细操作任务的实证数据采集。该数据集通过so101_follower型机器人记录了包含3578帧动作序列的10个完整任务片段，以30fps的高清视频与六维关节空间数据同步捕捉拧螺丝等精密装配动作。其多模态特征融合了顶部与前置双视角视觉观测、六自由度机械臂关节状态及末端执行器控制指令，为模仿学习与视觉运动策略研究提供了结构化数据支撑，推动了机器人自主操作从粗放抓取向精细作业的范式转变。

当前挑战

该数据集核心挑战在于解决机器人精细操作中的视觉-动作协同问题，需从多视角视频流中提取鲁棒的空间语义特征以指导六自由度机械臂完成亚厘米级精度的螺丝装配任务。构建过程中面临传感器异构同步难题，双视角视觉数据存在分辨率差异与时空对齐需求，而关节动作序列的连续平滑性需克服机械系统延迟与数据采集抖动。此外，有限的任务多样性（仅1类任务）与数据规模（10个片段）对模型泛化能力提出严峻考验，需通过数据增强与迁移学习突破样本稀缺性制约。

常用场景

经典使用场景

在机器人操作任务研究领域，so101_grab_the_screw_SEE_2数据集通过记录六自由度机械臂的关节位置与多视角视觉数据，为模仿学习算法提供了标准化的训练环境。该数据集典型应用于机械臂抓取螺丝的精细操作场景，研究者可利用其包含的3578帧连续动作序列与同步视觉观测，构建从视觉感知到关节控制的端到端策略模型。

衍生相关工作

以该数据集为基础衍生了LeRobot框架下的系列研究工作，包括基于时空注意力的动作预测模型与多传感器融合的模仿学习架构。这些成果进一步推动了机器人操作技能的数据驱动范式发展，为后续研究者在动态抓取任务中的状态表示学习与策略优化提供了重要借鉴。

数据集最近研究