SO-101-PushT-45s

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/xyin27/SO-101-PushT-45s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为机器人学应用创建的，特别针对'so_follower'类型的机器人。数据集包含236个episode，共计214646帧，所有数据均用于训练。数据文件以parquet格式存储，视频文件以mp4格式存储，数据文件和视频文件的大小分别为100MB和200MB，帧率为30 fps。数据集的结构包括动作和观测状态，其中动作和观测状态均包含6个自由度（shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos）。观测部分还包括顶部摄像头的视频数据，分辨率为480x640，3通道，视频编解码器为av1，像素格式为yuv420p。此外，数据集还包含时间戳、帧索引、episode索引、索引和任务索引等字段。数据集采用apache-2.0许可证发布。

创建时间：

2026-04-06

原始信息汇总

数据集概述

基本信息

数据集名称: SO-101-PushT-45s
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学

数据集规模与结构

总情节数: 236
总帧数: 214,646
总任务数: 1
数据分割: 全部数据用于训练（索引0至236）
数据格式: Parquet文件
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
代码库版本: v3.0
机器人类型: so_follower

数据特征

数据集包含以下关键特征：

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置指令：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置状态，名称与动作特征相同。

观测图像（顶部视角）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

元数据

时间戳: float32类型，形状[1]
帧索引: int64类型，形状[1]
情节索引: int64类型，形状[1]
索引: int64类型，形状[1]
任务索引: int64类型，形状[1]

文件组织

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
块大小: 1000

可视化

可通过以下链接可视化数据集：https://huggingface.co/spaces/lerobot/visualize_dataset?path=xyin27/SO-101-PushT-45s

引用信息

主页: 未提供
论文: 未提供
BibTeX引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进展至关重要。SO-101-PushT-45s数据集依托LeRobot平台构建，通过真实机器人交互采集了236个完整任务片段，总计超过21万帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与读取。采集过程中，机器人关节状态与顶部摄像头图像被同步记录，帧率为30Hz，形成了多模态的时序观测-动作对序列，为算法训练提供了丰富的现实世界交互轨迹。

特点

该数据集在机器人操作数据中展现出显著的结构化特性。其核心特征在于同时包含了六维关节动作指令、对应的关节状态观测以及高分辨率的视觉观测图像，实现了状态与动作的精确对齐。数据规模庞大，覆盖单一推动任务，但轨迹多样性丰富。所有数据均附带严格的时间戳、帧索引与片段索引，支持精确的时序分析。视觉数据以压缩视频格式存储，平衡了存储效率与信息完整性，为端到端策略学习提供了多模态输入的基础。

使用方法

研究人员可利用该数据集进行机器人策略学习模型的训练与评估。典型的使用流程包括通过LeRobot库或直接读取Parquet文件来加载数据，依据帧索引或片段索引提取所需的观测-动作序列。由于数据集已预设为训练集，可直接用于行为克隆、离线强化学习等算法的训练。视觉观测可通过提供的视频路径进行解码，与关节状态数据结合，构建多模态输入。数据的时间对齐特性使得其适用于需要精确时序建模的算法，为机器人操作任务的仿真与真实世界迁移研究提供了可靠基准。

背景与挑战

背景概述

在机器人操作学习领域，高质量、大规模的真实世界交互数据集对于推动模仿学习与强化学习算法的进展至关重要。SO-101-PushT-45s数据集由LeRobot团队创建，依托开源机器人学习框架LeRobot，专注于解决机器人灵巧操作任务中的推物问题。该数据集收录了长达45秒的连续操作序列，包含236个完整交互片段，共计超过21万帧的多模态数据，涵盖了机器人关节状态、动作指令以及顶部摄像头视觉观测。其核心研究目标在于为机器人操作策略的端到端学习提供丰富的现实交互轨迹，促进从视觉感知到关节控制的映射能力提升，对推动具身智能在实际场景中的泛化与应用具有显著意义。

当前挑战

该数据集旨在应对机器人灵巧操作中推物任务的复杂挑战，此类任务要求机器人精确控制末端执行器的位姿与力度，在非结构化环境中实现物体的稳定位移。其难点在于高维连续动作空间的探索、视觉观测与物理状态的对齐，以及长时序动作序列的规划与泛化。在数据构建过程中，面临多模态数据同步采集与对齐的技术障碍，需确保关节编码器数据、控制指令与视觉帧之间的严格时序一致性。同时，大规模真实机器人交互数据的收集成本高昂，涉及硬件稳定性、环境可重复性以及操作安全性的综合考量，数据标注与清洗亦需耗费大量人力以确保轨迹的平滑性与有效性。

常用场景

经典使用场景

在机器人学习领域，SO-101-PushT-45s数据集为模仿学习与强化学习算法提供了宝贵的实验平台。该数据集记录了机器人执行推动任务时的关节位置、图像观测及时间戳信息，使得研究者能够基于真实交互数据训练端到端的控制策略。通过整合多模态传感器输入，该数据集典型应用于评估模型在复杂物理环境中的泛化能力与决策效率，为机器人自主操作技能的习得奠定了数据基础。

解决学术问题

该数据集有效应对了机器人学习中样本效率低下与仿真到现实迁移困难的经典挑战。通过提供大规模、高帧率的真实世界交互轨迹，研究者能够深入探索基于视觉的动力学建模、离线强化学习以及多任务策略泛化等前沿问题。其结构化标注与多视角图像支持了跨模态表征学习的研究，显著降低了真实机器人实验的成本与风险，推动了数据驱动机器人技术的理论进展。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在模仿学习的策略蒸馏、离线强化学习的保守价值估计以及跨任务迁移学习等领域。例如，研究者利用其多模态轨迹数据开发了高效的视觉运动策略网络，显著提升了在动态环境中机器人操作的稳定性与精度。这些工作不仅拓展了数据集中隐含的任务语义，也为后续大规模机器人数据集的构建与标准化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集