so101_4blocks_v1

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/MathewYoussef/so101_4blocks_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，包含211个episodes和217126帧数据，主要用于机器人技术研究。数据集包含6个关节位置的动作数据、6个关节位置的观察状态数据、1080x1920分辨率的视频数据、时间戳、帧索引、episode索引等多种特征。数据以parquet格式存储，视频以mp4格式存储，帧率为30fps。

创建时间：

2025-12-10

原始信息汇总

数据集概述

基本信息

数据集名称: so101_4blocks_v1
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 211
总帧数: 217,126
总任务数: 2
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据拆分: 全部数据（0:211）用于训练

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测图像（前视）

数据类型: video
形状: [1080, 1920, 3]
名称:
- height
- width
- channels
视频信息:
- 视频高度: 1080
- 视频宽度: 1920
- 视频编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 视频帧率: 30
- 视频通道数: 3
- 包含音频: false

元数据

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]

其他信息

代码库版本: v3.0
机器人类型: so101_follower
主页: [More Information Needed]
论文: [More Information Needed]
引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的构建往往依赖于实际物理系统的交互记录。so101_4blocks_v1数据集便是通过LeRobot平台，利用so101_follower型机器人执行任务时采集而成。该过程涉及记录机器人在两个不同任务场景下的连续操作，共收集了211个完整事件片段，总计超过21.7万帧数据。数据以分块形式存储，每块包含1000帧，并以Parquet格式高效组织，确保了大规模时序数据的管理与访问效率。

特点

该数据集的特点在于其多模态与高精度的数据表征。它不仅包含了机器人六个关节的位置状态作为动作与观测向量，还同步录制了前端摄像头的高清视频流，分辨率达到1080p，帧率为30fps。这种状态信息与视觉观测的紧密结合，为模仿学习与强化学习算法提供了丰富的上下文。数据集中每个样本均附有时戳、帧索引及事件索引，结构清晰，便于进行时序分析与任务划分。

使用方法

使用该数据集时，研究人员可通过加载指定的Parquet数据文件来访问结构化的机器人交互记录。数据集已预分为训练集，涵盖全部211个事件。典型的应用流程包括读取观测状态、动作指令以及对应的前端图像序列，进而用于训练行为克隆、离线强化学习或视觉运动策略模型。由于数据包含视频，需配合相应的解码工具处理AV1编码的MP4文件，以实现高效的视觉特征提取与端到端策略学习。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。so101_4blocks_v1数据集由LeRobot项目团队于近期构建，旨在为机器人操作任务提供丰富的多模态演示数据。该数据集聚焦于解决机器人模仿学习中的样本效率与泛化能力问题，通过采集真实机器人执行任务时的关节状态、图像观测及动作序列，为研究者开发与验证端到端控制策略奠定了坚实基础。其采用Apache 2.0开源协议，体现了开放科学的精神，有望促进机器人社区在真实环境技能学习方面的协作与创新。

当前挑战

该数据集致力于应对机器人模仿学习中从高维视觉输入到连续动作映射的复杂挑战，其核心在于如何从有限的演示中学习鲁棒且可泛化的策略。构建过程中，团队需克服多传感器数据同步、大规模视频数据的高效存储与访问，以及真实世界操作任务的数据采集一致性等难题。此外，确保动作与状态数据的精确对齐，并处理不同任务间的分布偏移，也是数据集构建中面临的关键技术障碍。

常用场景

经典使用场景

在机器人学习领域，so101_4blocks_v1数据集为模仿学习与强化学习算法的训练提供了丰富的多模态数据资源。该数据集通过记录so101_follower型机器人在执行任务过程中的关节位置、视觉图像及时间序列信息，构建了从感知到动作的完整交互轨迹。研究者可基于这些数据训练端到端的控制策略，使机器人能够学习人类演示的操作模式，实现自主的物体抓取与放置等复杂任务。

解决学术问题

该数据集有效应对了机器人学习中样本效率低下与泛化能力不足的挑战。通过提供大量真实世界中的交互数据，它支持算法在无需昂贵仿真或实际试错的情况下进行训练，降低了数据收集成本。同时，其多模态特性（如结合状态观测与视觉输入）有助于解决感知与决策的耦合问题，推动了跨模态表示学习在机器人控制中的应用，为构建更鲁棒、适应性强的智能体奠定了基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列关于机器人模仿学习与离线强化学习的研究工作。例如，基于其多模态轨迹数据，研究者开发了视觉-动作映射模型，用于提升机器人在未见场景中的泛化性能。同时，该数据集也促进了分层强化学习方法的探索，通过分解复杂任务为子技能序列，优化长期决策过程。这些工作共同推动了数据高效型机器人学习框架的发展与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集