so101_ds2

Hugging Face2026-02-10 更新2026-02-11 收录

下载链接：

https://huggingface.co/datasets/mi-kicic/so101_ds2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，适用于机器人技术领域，采用apache-2.0许可证。数据集包含50个episodes，总计28457帧，涉及1个任务。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括训练集（0:50）。数据特征包括动作（6个关节位置）、观察状态（6个关节位置）、来自前、顶和侧面的图像观察（480x640x3的视频格式），以及时间戳、帧索引、episode索引等元数据。图像视频采用av1编解码器，yuv420p像素格式，无音频。

创建时间：

2026-02-09

原始信息汇总

数据集概述

基本信息

数据集名称: so101_ds2
托管地址: https://huggingface.co/datasets/mi-kicic/so101_ds2
创建工具: 使用 LeRobot (https://github.com/huggingface/lerobot) 创建
许可协议: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 50
总帧数: 28457
总任务数: 1
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据分割: 训练集 (train) 包含所有50个情节
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0
机器人类型: so_follower

数据特征

动作空间

特征名: action
数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

图像观测

前视摄像头 (`observation.images.front`)

数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

顶视摄像头 (`observation.images.top`)

数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

侧视摄像头 (`observation.images.side`)

数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据特征

时间戳 (timestamp): 数据类型 float32, 形状 [1]
帧索引 (frame_index): 数据类型 int64, 形状 [1]
情节索引 (episode_index): 数据类型 int64, 形状 [1]
索引 (index): 数据类型 int64, 形状 [1]
任务索引 (task_index): 数据类型 int64, 形状 [1]

引用信息

论文: 待补充
BibTeX: 待补充

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法进步的关键基石。so101_ds2数据集依托LeRobot平台精心构建，通过记录真实机器人执行任务的过程，系统采集了50个完整交互片段，涵盖28457帧时序数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与读取。该构建过程注重时序连贯性与多模态对齐，为机器人模仿学习与策略优化提供了坚实的实证基础。

特点

该数据集展现出鲜明的多模态与结构化特征，其核心在于同步整合了机器人关节状态、动作指令及多视角视觉观测。具体而言，数据集提供了六自由度机械臂的精确位姿信息，并辅以前视、顶视与侧视三个角度的彩色视频流，分辨率统一为640x480，帧率稳定在30fps。这种多维度的数据表征不仅完整捕捉了机器人运动与环境交互的细节，还通过统一的时序索引确保了各模态间严格对齐，为复杂任务下的感知与决策研究创造了理想条件。

使用方法

研究人员可利用该数据集开展机器人模仿学习、行为克隆及视觉运动策略训练等一系列前沿探索。数据以标准Parquet格式组织，并配有清晰的元数据描述，便于直接通过LeRobot或类似框架进行加载与预处理。典型使用流程包括按片段索引读取观测与动作序列，利用多视角图像进行视觉特征提取，并结合关节状态训练端到端控制模型。数据集已预设训练划分，支持研究者高效地投入算法开发与验证工作。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、多模态的真实世界交互数据。so101_ds2数据集由HuggingFace的LeRobot项目创建，旨在为机器人操作任务提供丰富的演示数据。该数据集聚焦于六自由度机械臂的跟随任务，通过整合关节状态、多视角视觉观测与动作指令，为端到端策略学习构建了结构化基准。其设计体现了当前机器人学研究中数据驱动范式的核心诉求，即通过大规模、多样化的交互记录来提升模型在复杂物理环境中的泛化能力与鲁棒性。

当前挑战

该数据集致力于解决机器人模仿学习中从多模态感知到连续动作映射的挑战，其核心难点在于如何从高维视觉输入与低维状态信息中提取有效特征，并生成精确、平滑的关节控制序列。在构建过程中，数据采集面临传感器同步、视角覆盖与动作标注的一致性难题；同时，数据规模有限与任务单一性制约了模型的泛化能力。此外，视频数据的存储效率与实时处理需求也对算法设计提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，so101_ds2数据集以其多视角视觉观测与关节动作的同步记录，为模仿学习算法的训练与验证提供了经典范例。该数据集通过捕捉机器人执行任务时的状态、动作及多角度视频流，使得研究者能够构建端到端的策略模型，模拟人类操作员的示范行为，从而优化机器人在复杂环境中的自主决策能力。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，主要集中在视觉模仿学习与多模态策略优化领域。例如，基于其多视角视频流的研究推动了视角不变特征提取技术的发展，而关节动作数据的利用则促进了强化学习与行为克隆算法的融合，为机器人学习社区提供了可复现的基准与创新灵感。

数据集最近研究