so101-v2

Hugging Face2025-12-26 更新2025-12-27 收录

下载链接：

https://huggingface.co/datasets/younghwan-chae/so101-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot框架创建的，与机器人技术相关。数据集包含95个片段，52,298帧和3个任务，数据存储在parquet文件中，视频存储在mp4格式中。数据集的特征包括动作、观测（状态和图像）、时间戳和各种索引。

This dataset was created using the LeRobot framework and is related to robotics research. It comprises 95 segments, 52,298 frames, and covers 3 distinct tasks. The dataset's data is stored in Parquet files, while the corresponding videos are saved in MP4 format. The features included in this dataset are actions, observations (consisting of state and image modalities), timestamps, and various indices.

创建时间：

2025-12-23

原始信息汇总

数据集概述

基本信息

数据集名称: so101-v2
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 95
总帧数: 52298
总任务数: 3
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据块大小: 1000

数据划分

训练集: 包含全部95个情节

数据结构与特征

数据存储为Parquet文件，视频存储为MP4文件。

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

action (动作)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.state (状态观测)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.images.hand (手部图像观测)
- 数据类型: video
- 形状: [720, 1280, 3] (高度, 宽度, 通道)
- 视频信息:
  - 编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 30
  - 通道数: 3
  - 无音频
observation.images.top (顶部图像观测)
- 数据类型: video
- 形状: [720, 1280, 3] (高度, 宽度, 通道)
- 视频信息:
  - 编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 30
  - 通道数: 3
  - 无音频
timestamp (时间戳)
- 数据类型: float32
- 形状: [1]
frame_index (帧索引)
- 数据类型: int64
- 形状: [1]
episode_index (情节索引)
- 数据类型: int64
- 形状: [1]
index (索引)
- 数据类型: int64
- 形状: [1]
task_index (任务索引)
- 数据类型: int64
- 形状: [1]

元数据

代码库版本: v3.0
机器人类型: so101_follower

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。so101-v2数据集依托LeRobot框架构建，通过记录SO101跟随者机器人在执行三项任务过程中的多模态交互数据而形成。该数据集包含95个完整的情节，总计52298帧数据，以30帧每秒的速率采集，并以分块存储的Parquet格式组织，确保了数据的高效访问与处理。

特点

该数据集的核心特征在于其丰富的多模态观测与精确的动作标注。观测部分不仅提供了机器人六个关节的位置状态，还包含了来自顶部和手部视角的高清视频流，分辨率均为1280x720，编码为AV1格式。动作空间同样以六维浮点数向量定义，与观测状态维度一致，便于端到端策略学习。数据集结构清晰，通过帧索引、情节索引等元数据支持灵活的数据切片与任务分析。

使用方法

为有效利用so101-v2数据集，研究者可通过LeRobot库提供的工具加载和处理数据。数据集已预分为训练集，涵盖所有95个情节。典型的应用流程包括：读取Parquet文件以获取状态与动作序列，同时加载对应的MP4视频文件进行视觉特征提取。该数据集适用于机器人策略学习、行为克隆及多模态表示学习等任务，为算法开发与验证提供了真实的机器人交互基准。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。so101-v2数据集由HuggingFace的LeRobot项目团队构建，专注于解决机器人操作任务中的技能获取问题。该数据集通过搭载so101_follower型机器人的多视角视觉传感器与关节状态传感器，采集了涵盖3种不同任务的95条完整交互轨迹，共计超过5.2万帧的同步观测与动作数据。其核心研究目标在于为机器人策略学习提供丰富的多模态演示数据，以促进端到端控制模型的训练与评估，对提升机器人在非结构化环境中的自主操作能力具有重要价值。

当前挑战

该数据集旨在应对机器人操作任务中模仿学习所面临的挑战，即如何从高维视觉与状态观测中学习出鲁棒且精确的连续控制策略。具体而言，挑战包括处理多视角图像序列与低维关节动作之间的复杂映射关系，以及在不同任务间实现有效的知识迁移。在构建过程中，数据采集需确保多传感器时序的严格同步，并克服真实环境中光照变化、遮挡等干扰因素带来的数据噪声问题。此外，大规模视频数据的存储、压缩与高效读取也构成了显著的技术障碍，需要平衡数据质量与存储开销之间的矛盾。

常用场景

经典使用场景

在机器人学习领域，so101-v2数据集为模仿学习与强化学习算法提供了宝贵的实验平台。该数据集记录了机器人执行任务时的多模态观测数据，包括关节位置状态以及来自顶部和手部摄像头的视觉信息，使得研究人员能够训练模型从人类演示中学习复杂的操作技能。经典使用场景涉及基于视觉的机器人控制策略学习，模型通过分析连续帧图像与对应动作序列，实现端到端的任务执行能力。

实际应用

在实际应用场景中，so101-v2数据集可用于开发家庭服务机器人或工业自动化系统。基于该数据集训练的模型能够执行物体抓取、放置等精细操作任务，适用于物流分拣、装配线辅助等场景。视觉与状态数据的结合使机器人能够理解环境上下文，实现自主决策，从而降低人工干预需求，提升生产效率与安全性。

衍生相关工作

围绕so101-v2数据集，衍生了一系列经典研究工作，主要集中在视觉-动作映射模型的创新上。例如，基于该数据集的跨模态Transformer架构被提出，用于处理高维视觉输入与低维动作输出的对齐问题。此外，结合元学习的方法利用其多任务特性，实现了快速适应新任务的策略迁移。这些工作推动了机器人学习从仿真到真实世界的过渡，为开源机器人社区提供了可复现的基准。

以上内容由遇见数据集搜集并总结生成