so101.tp1.e161.c2

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/mthirumalai/so101.tp1.e161.c2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术领域设计，采用Apache-2.0许可证。数据集包含161个总剧集，58313帧，涉及单一任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作数据（如肩部、肘部、腕部和夹爪的位置）、观察数据（包括状态和来自侧面及正面的图像视频数据）、时间戳、帧索引、剧集索引和任务索引等。视频数据的分辨率为480x640，3通道，采用av1编解码器，无音频。适用于机器人控制、行为学习等研究任务。

创建时间：

2026-02-28

原始信息汇总

数据集概述

基本信息

数据集名称: so101.tp1.e161.c2
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 161
总帧数: 58313
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
数据格式: Parquet
视频编码: AV1
数据分割: 训练集 (0:161)

数据特征

动作特征

特征名: action
数据类型: float32
形状: [6]
描述: 包含6个关节位置指令
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
描述: 包含6个关节位置状态
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测 - 侧视

特征名: observation.images.side
数据类型: video
形状: [480, 640, 3]
分辨率: 480×640
通道数: 3
视频属性:
- 编码格式: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 无音频

图像观测 - 前视

特征名: observation.images.front
数据类型: video
形状: [480, 640, 3]
分辨率: 480×640
通道数: 3
视频属性:
- 编码格式: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 无音频

元数据特征

timestamp: 时间戳 (float32, shape [1])
frame_index: 帧索引 (int64, shape [1])
episode_index: 情节索引 (int64, shape [1])
index: 索引 (int64, shape [1])
task_index: 任务索引 (int64, shape [1])

文件路径模式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

版本信息

代码库版本: v3.0
机器人类型: so_follower

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法发展的基石。so101.tp1.e161.c2数据集依托LeRobot平台构建，通过记录161个完整交互片段，采集了总计58313帧的时序数据。数据以Parquet格式分块存储，每块包含1000帧，确保了高效的数据管理与读取。该数据集同步记录了机器人关节状态、动作指令以及来自侧视与正视视角的视频流，帧率为30fps，视频采用AV1编码，为机器人模仿学习与策略优化提供了丰富的多模态信息源。

使用方法

研究者可利用该数据集进行机器人行为克隆、强化学习或视觉运动策略训练。数据以标准Parquet文件形式提供，可通过Hugging Face数据集库或兼容框架直接加载。使用时应依据meta/info.json中的路径规范访问数据块与视频文件，注意训练集涵盖了全部161个片段。典型流程包括读取状态-动作对作为监督信号，或结合图像观测构建感知-控制模型。由于数据规模适中且结构清晰，它适用于中等复杂度的仿真验证乃至部分真实场景的迁移研究。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、多模态的真实世界交互数据集作为支撑。数据集so101.tp1.e161.c2由LeRobot项目团队创建，该项目隶属于HuggingFace生态系统，致力于推动开源机器人研究。该数据集聚焦于机械臂操作任务，具体涉及一个名为'so_follower'的机器人平台，其核心研究问题在于如何通过记录机器人关节状态、视觉观测与动作指令的时序数据，来训练能够理解并执行复杂操作策略的智能体。它包含了161个完整交互片段，总计超过58000帧的多视角视频与同步状态数据，为机器人策略学习、状态估计及跨模态表征研究提供了宝贵的实证资源，对促进机器人自主操作能力的实际应用具有显著影响力。

当前挑战

该数据集旨在解决机器人操作任务中策略学习与泛化的核心挑战，其具体问题在于如何让智能体从高维视觉与状态观测中，精准地预测连续关节空间动作以完成指定任务。构建过程中的挑战主要体现在数据采集与处理的复杂性上：需要同步记录机械臂的六维关节位置、前视与侧视双路高清视频流，并确保时序对齐与数据完整性；同时，大规模视频数据的压缩、存储与高效读取（如采用AV1编码的MP4格式）也对数据处理管线提出了较高要求。此外，数据集中仅包含单一任务类型，这为模型在多样化任务场景下的泛化能力评估带来了局限性。

常用场景

经典使用场景

在机器人学习领域，so101.tp1.e161.c2数据集以其丰富的多模态数据为机器人模仿学习提供了经典范例。该数据集包含161个完整任务片段，涵盖了机器人关节状态、前视与侧视图像视频流以及时间戳信息，特别适用于训练机器人从视觉观察中学习执行复杂操作任务。研究者常利用该数据集构建端到端的模仿学习模型，使机器人能够通过观察人类演示或自主探索来掌握精细的操控技能，从而在动态环境中实现鲁棒的行为泛化。

解决学术问题

该数据集有效应对了机器人模仿学习中数据稀缺与多模态对齐的学术挑战。通过提供高帧率的同步视觉与关节状态数据，它支持研究者深入探索视觉-动作映射、状态表示学习以及跨模态特征融合等核心问题。其结构化设计促进了模仿学习、强化学习与视觉伺服控制等方法的集成，为机器人自主技能获取提供了可复现的实验基准，显著推动了具身智能领域从仿真到真实世界的知识迁移研究。

实际应用

在实际机器人部署中，so101.tp1.e161.c2数据集为工业自动化与服务机器人场景提供了关键数据支撑。基于该数据集训练的模型可应用于装配线零件抓取、精密仪器操作或家庭环境中的物品整理等任务。其包含的双视角视觉数据增强了机器人在复杂光照与遮挡条件下的环境感知能力，使得机器人系统能够更可靠地适应真实世界的不确定性，提升任务执行的成功率与安全性。

数据集最近研究