so101_multitask

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/indojin/so101_multitask

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专为机器人技术研究设计，采用apache-2.0许可证。数据集包含50个训练片段，总计25158帧，数据文件大小为100MB，视频文件大小为200MB。数据以parquet格式存储，视频以mp4格式存储，帧率为30fps。数据集包含多个特征字段，如动作（action）、观测状态（observation.state）、前视图像（observation.images.front）、时间戳（timestamp）、帧索引（frame_index）、片段索引（episode_index）、索引（index）和任务索引（task_index）。前视图像的分辨率为480x640，3通道，使用av1编解码器。该数据集适用于机器人控制、行为模仿等任务。

创建时间：

2026-02-27

原始信息汇总

数据集概述

基本信息

数据集名称: so101_multitask
创建工具: LeRobot
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总情节数: 50
总帧数: 25158
总任务数: 1
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据分割: 训练集 (0:50)

数据特征

动作

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（前视）

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 是否包含音频: false

其他特征

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]

文件路径格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

元数据

代码库版本: v3.0
机器人类型: so_follower

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于模型训练至关重要。so101_multitask数据集依托LeRobot框架构建，通过采集实际机器人操作数据，系统记录了50个完整任务片段，涵盖25158帧观测信息。数据以分块形式存储，每块包含1000帧，并以Parquet格式高效组织，确保数据结构的紧凑性与读取便捷性。视频数据采用AV1编码，以30帧每秒的速率捕捉机器人前视角图像，同时同步记录六自由度关节位置作为动作与状态观测，为机器人策略学习提供了丰富的多模态交互轨迹。

特点

该数据集在机器人模仿学习与强化学习研究中展现出显著特色。其核心在于融合了高维视觉观测与精确关节状态，前视角图像分辨率达640x480，为模型提供了细腻的环境感知输入。动作空间涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹持器位置六维连续控制，与状态观测完全对应，便于端到端策略建模。数据集采用统一索引机制，通过时间戳、帧索引与任务索引实现多维度对齐，支持复杂时序分析与跨任务泛化研究，为多任务学习奠定了坚实基础。

使用方法

研究者可借助LeRobot工具链高效利用该数据集进行算法开发。数据以标准化Parquet文件存储，通过指定数据路径即可加载分块数据，每块包含动作、状态、图像及元数据字段。训练时可直接提取observation.images.front作为视觉输入，observation.state与action分别作为状态与监督信号，结合episode_index实现按片段采样。视频数据可通过视频路径异步加载，适用于需要高帧率视觉反馈的模型。数据集完全兼容主流机器人学习库，支持离线强化学习、行为克隆及视觉运动策略训练等多种范式。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、多模态的真实世界数据集作为支撑。so101_multitask数据集由HuggingFace的LeRobot项目创建，专注于机器人操作任务，特别是针对so_follower型机械臂的轨迹记录与视觉感知数据采集。该数据集整合了关节位置状态、前端摄像头图像及时间戳等多维度信息，旨在为机器人策略学习提供丰富的交互样本。其构建体现了开源社区在推动机器人泛化能力与任务适应性研究方面的努力，通过标准化数据格式促进算法比较与模型迭代，对提升机器人在非结构化环境中的自主操作性能具有潜在影响力。

当前挑战

so101_multitask数据集所针对的机器人操作任务面临环境动态性与动作泛化性的核心挑战，要求模型能够从有限的演示中推断出鲁棒的控制策略，并适应传感器噪声与机械误差。在数据集构建过程中，挑战主要体现在多模态数据的高效同步与对齐，需确保关节状态与视觉帧在时间维度上的一致性；同时，数据采集涉及真实物理系统的安全约束与操作复杂度，增加了大规模、高质量轨迹记录的难度。此外，数据标注的缺失与任务多样性有限，可能制约模型在跨场景迁移学习中的表现。

常用场景

经典使用场景

在机器人学习领域，so101_multitask数据集为模仿学习与强化学习算法的训练提供了宝贵的多模态数据资源。该数据集记录了机器人执行任务过程中的关节位置、视觉观测及时间序列信息，使得研究者能够基于真实交互数据构建端到端的控制策略。通过整合状态观测与动作序列，该数据集典型应用于训练机器人从视觉输入直接映射到关节运动的神经网络模型，从而推动机器人自主执行复杂操作任务的能力发展。

衍生相关工作

围绕该数据集，研究社区衍生了一系列经典工作，主要集中在多任务学习框架、视觉运动策略网络及离线强化学习算法的开发。例如，基于此类数据的模型已应用于机器人关节控制与视觉伺服系统的联合优化，推动了如Action Chunking Transformers等架构在长时序任务中的性能突破。这些工作进一步拓展了数据集中时序与模态信息的利用方式，为机器人学习领域的算法创新提供了实证支持。

数据集最近研究