five

so101_multitask

收藏
Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/indojin/so101_multitask
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot创建,专为机器人技术研究设计,采用apache-2.0许可证。数据集包含50个训练片段,总计25158帧,数据文件大小为100MB,视频文件大小为200MB。数据以parquet格式存储,视频以mp4格式存储,帧率为30fps。数据集包含多个特征字段,如动作(action)、观测状态(observation.state)、前视图像(observation.images.front)、时间戳(timestamp)、帧索引(frame_index)、片段索引(episode_index)、索引(index)和任务索引(task_index)。前视图像的分辨率为480x640,3通道,使用av1编解码器。该数据集适用于机器人控制、行为模仿等任务。
创建时间:
2026-02-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: so101_multitask
  • 创建工具: LeRobot
  • 许可证: Apache 2.0
  • 任务类别: 机器人学
  • 标签: LeRobot

数据集结构

  • 总情节数: 50
  • 总帧数: 25158
  • 总任务数: 1
  • 数据块大小: 1000
  • 数据文件总大小: 100 MB
  • 视频文件总大小: 200 MB
  • 帧率: 30 FPS
  • 数据分割: 训练集 (0:50)

数据特征

动作

  • 数据类型: float32
  • 形状: [6]
  • 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

  • 数据类型: float32
  • 形状: [6]
  • 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像(前视)

  • 数据类型: 视频
  • 形状: [480, 640, 3]
  • 维度名称: 高度, 宽度, 通道
  • 视频信息:
    • 高度: 480
    • 宽度: 640
    • 编解码器: av1
    • 像素格式: yuv420p
    • 是否为深度图: false
    • 帧率: 30
    • 通道数: 3
    • 是否包含音频: false

其他特征

  • 时间戳: 数据类型 float32,形状 [1]
  • 帧索引: 数据类型 int64,形状 [1]
  • 情节索引: 数据类型 int64,形状 [1]
  • 索引: 数据类型 int64,形状 [1]
  • 任务索引: 数据类型 int64,形状 [1]

文件路径格式

  • 数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

元数据

  • 代码库版本: v3.0
  • 机器人类型: so_follower

缺失信息

  • 主页: 未提供
  • 论文: 未提供
  • 引用格式: 未提供
搜集汇总
数据集介绍
构建方式
在机器人学习领域,高质量的数据集对于模型训练至关重要。so101_multitask数据集依托LeRobot框架构建,通过采集实际机器人操作数据,系统记录了50个完整任务片段,涵盖25158帧观测信息。数据以分块形式存储,每块包含1000帧,并以Parquet格式高效组织,确保数据结构的紧凑性与读取便捷性。视频数据采用AV1编码,以30帧每秒的速率捕捉机器人前视角图像,同时同步记录六自由度关节位置作为动作与状态观测,为机器人策略学习提供了丰富的多模态交互轨迹。
特点
该数据集在机器人模仿学习与强化学习研究中展现出显著特色。其核心在于融合了高维视觉观测与精确关节状态,前视角图像分辨率达640x480,为模型提供了细腻的环境感知输入。动作空间涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹持器位置六维连续控制,与状态观测完全对应,便于端到端策略建模。数据集采用统一索引机制,通过时间戳、帧索引与任务索引实现多维度对齐,支持复杂时序分析与跨任务泛化研究,为多任务学习奠定了坚实基础。
使用方法
研究者可借助LeRobot工具链高效利用该数据集进行算法开发。数据以标准化Parquet文件存储,通过指定数据路径即可加载分块数据,每块包含动作、状态、图像及元数据字段。训练时可直接提取observation.images.front作为视觉输入,observation.state与action分别作为状态与监督信号,结合episode_index实现按片段采样。视频数据可通过视频路径异步加载,适用于需要高帧率视觉反馈的模型。数据集完全兼容主流机器人学习库,支持离线强化学习、行为克隆及视觉运动策略训练等多种范式。
背景与挑战
背景概述
在机器人学习领域,模仿学习与强化学习的发展亟需高质量、多模态的真实世界数据集作为支撑。so101_multitask数据集由HuggingFace的LeRobot项目创建,专注于机器人操作任务,特别是针对so_follower型机械臂的轨迹记录与视觉感知数据采集。该数据集整合了关节位置状态、前端摄像头图像及时间戳等多维度信息,旨在为机器人策略学习提供丰富的交互样本。其构建体现了开源社区在推动机器人泛化能力与任务适应性研究方面的努力,通过标准化数据格式促进算法比较与模型迭代,对提升机器人在非结构化环境中的自主操作性能具有潜在影响力。
当前挑战
so101_multitask数据集所针对的机器人操作任务面临环境动态性与动作泛化性的核心挑战,要求模型能够从有限的演示中推断出鲁棒的控制策略,并适应传感器噪声与机械误差。在数据集构建过程中,挑战主要体现在多模态数据的高效同步与对齐,需确保关节状态与视觉帧在时间维度上的一致性;同时,数据采集涉及真实物理系统的安全约束与操作复杂度,增加了大规模、高质量轨迹记录的难度。此外,数据标注的缺失与任务多样性有限,可能制约模型在跨场景迁移学习中的表现。
常用场景
经典使用场景
在机器人学习领域,so101_multitask数据集为模仿学习与强化学习算法的训练提供了宝贵的多模态数据资源。该数据集记录了机器人执行任务过程中的关节位置、视觉观测及时间序列信息,使得研究者能够基于真实交互数据构建端到端的控制策略。通过整合状态观测与动作序列,该数据集典型应用于训练机器人从视觉输入直接映射到关节运动的神经网络模型,从而推动机器人自主执行复杂操作任务的能力发展。
衍生相关工作
围绕该数据集,研究社区衍生了一系列经典工作,主要集中在多任务学习框架、视觉运动策略网络及离线强化学习算法的开发。例如,基于此类数据的模型已应用于机器人关节控制与视觉伺服系统的联合优化,推动了如Action Chunking Transformers等架构在长时序任务中的性能突破。这些工作进一步拓展了数据集中时序与模态信息的利用方式,为机器人学习领域的算法创新提供了实证支持。
数据集最近研究
最新研究方向
在机器人学习领域,多模态数据融合正成为推动智能体泛化能力提升的关键路径。so101_multitask数据集以其丰富的关节状态、视觉观测与动作序列的同步记录,为模仿学习与强化学习算法的联合训练提供了高质量基准。当前研究热点聚焦于如何利用此类结构化时序数据,结合前沿的扩散策略或Transformer架构,实现从视觉输入到连续控制指令的端到端映射,从而解决真实场景中动态环境下的鲁棒操作问题。该数据集的发布顺应了开源机器人社区对标准化仿真到实物转移验证的迫切需求,其多任务潜力有望加速家庭服务机器人等应用场景的算法迭代与部署。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作