libero_spatial

Name: libero_spatial
Creator: binhng
Published: 2025-07-06 18:46:03
License: 暂无描述

Hugging Face2025-07-06 更新2025-07-06 收录

下载链接：

https://huggingface.co/datasets/binhng/libero_spatial

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含机器人任务相关的观察图像、手腕图像、深度图、掩码以及各种状态观察。数据集结构包括500个片段、62250帧、10个任务和4000个视频。数据格式包括视频和浮点数组，涉及机器人状态、动作和时间戳等信息。

This dataset was created using LeRobot, and contains observation images related to robotic tasks, wrist images, depth maps, masks, and various state observations. The dataset structure includes 500 segments, 62250 frames, 10 tasks, and 4000 videos. The data formats include videos and floating-point arrays, covering information such as robot states, actions, and timestamps.

提供机构：

binhng

创建时间：

2025-07-06

原始信息汇总

数据集概述

基本信息

名称: libero_spatial
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot, libero, franka, libero_spatial_mask_depth

数据集描述

创建工具: LeRobot
主页: 无
论文: 无
引用信息: 无

数据集结构

代码库版本: v2.1
机器人类型: franka
总剧集数: 500
总帧数: 62250
总任务数: 10
总视频数: 4000
分块数: 0
分块大小: 1000
帧率: 20 fps
数据分割:
- 训练集: 0:500

数据路径

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

observation.images.image:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.wrist_image:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.image_depth:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.wrist_depth:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.image_mask:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.wrist_mask:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.object_of_interest_mask:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.images.object_of_interest_wrist_mask:
- 类型: 视频
- 形状: [256, 256, 3]
- 帧率: 20 fps
- 编码: av1
- 像素格式: yuv420p
- 音频: 无
observation.state:
- 类型: float32
- 形状: [8]
- 名称: [x, y, z, roll, pitch, yaw, gripper, gripper]
observation.states.ee_state:
- 类型: float32
- 形状: [6]
- 名称: [x, y, z, roll, pitch, yaw]
observation.states.joint_state:
- 类型: float32
- 形状: [7]
- 名称: [joint_0, joint_1, joint_2, joint_3, joint_4, joint_5, joint_6]
observation.states.gripper_state:
- 类型: float32
- 形状: [2]
- 名称: [gripper, gripper]
action:
- 类型: float32
- 形状: [7]
- 名称: [x, y, z, roll, pitch, yaw, gripper]
timestamp:
- 类型: float32
- 形状: [1]
frame_index:
- 类型: int64
- 形状: [1]
episode_index:
- 类型: int64
- 形状: [1]
index:
- 类型: int64
- 形状: [1]
task_index:
- 类型: int64
- 形状: [1]

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据集的构建领域，libero_spatial数据集依托LeRobot框架，通过Franka机器人平台系统采集而成。该数据集包含500个完整交互片段，总计62250帧数据，覆盖10类不同操作任务。数据以Parquet格式存储，每段交互记录均包含多视角视觉观测与机器人状态信息，并以20帧每秒的速率同步采集，确保了时序数据的一致性。

特点

该数据集在机器人感知与操作研究中展现出显著特点，其多模态观测体系涵盖了256x256分辨率的RGB图像、深度图及物体掩膜，同时提供末端执行器与关节状态等精确控制信息。数据集结构设计注重时空对齐，所有视频流均采用AV1编码，保证了数据的高效存储与读取。丰富的任务场景与精细标注为空间理解与操作策略学习提供了坚实基础。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，利用其预定义的数据结构进行模型训练与验证。数据集已划分为训练集，支持按片段索引读取观测-动作对。典型应用场景包括视觉运动策略学习、多模态表示对齐以及机器人操作任务泛化研究，用户可基于提供的状态特征与视觉流开发端到端的控制模型。

背景与挑战

背景概述

在机器人学习领域，构建能够适应复杂物理环境并执行多样化操作任务的智能体，一直是核心研究议题。libero_spatial数据集应运而生，由HuggingFace的LeRobot项目团队创建，依托Franka机器人平台，旨在为机器人空间感知与操作任务提供高质量的多模态演示数据。该数据集收录了涵盖10项不同任务的500条交互轨迹，包含丰富的视觉观测（如RGB图像、深度图及物体掩码）与精确的机器人状态及动作序列，为推进模仿学习、强化学习及具身智能算法的研究奠定了坚实的数据基础。

当前挑战

该数据集致力于解决机器人操作任务中空间理解与精确控制的挑战，其核心在于如何从多视角视觉输入中有效提取三维空间信息，并规划出鲁棒的动作序列。在构建过程中，面临数据采集与标注的复杂性，例如确保多传感器（如腕部与固定摄像头）的时间同步与空间校准，以及生成精确的物体掩码以支持语义理解。此外，大规模高质量演示数据的收集成本高昂，且需保证任务多样性与环境真实性，以覆盖现实世界中的操作变异性。

常用场景

经典使用场景

在机器人学习领域，视觉感知与动作控制的融合是提升智能体环境交互能力的关键。libero_spatial数据集以其丰富的多模态观测数据，为机器人模仿学习与强化学习算法提供了经典的应用场景。该数据集包含来自Franka机器人的500个任务片段，涵盖10种不同任务，每个片段均提供RGB图像、深度信息、掩码标注以及精确的关节状态与末端执行器动作序列。研究人员能够利用这些同步记录的多视角视觉与状态数据，训练模型理解复杂场景的空间结构，并生成精确的机器人动作策略，从而在仿真与真实世界之间搭建起高效的技能迁移桥梁。

解决学术问题

机器人学长期面临的一大挑战是如何让机器人在非结构化环境中进行灵巧操作。libero_spatial数据集通过提供带有物体掩码和深度信息的视觉观测，直接应对了机器人感知中的语义理解与三维空间推理问题。该数据集的结构化设计使得研究者能够系统性地探索基于视觉的机器人控制方法，解决了传统方法在泛化性、样本效率以及多任务学习方面的局限。其意义在于为学术界提供了一个标准化的基准，推动了对机器人感知-动作闭环系统的深入研究，加速了从感知到动作的端到端学习框架的发展。

衍生相关工作

围绕libero_spatial这类高质量机器人数据集，已催生了一系列重要的学术工作。这些工作主要集中在视觉-语言-动作模型、多任务策略学习以及仿真到实物的迁移等领域。例如，基于类似数据结构的预训练视觉编码器被广泛用于提升下游机器人任务的样本效率；一些研究利用掩码和深度信息进行物体中心化的表示学习，以增强策略的泛化能力；此外，该数据集也支持了对行为克隆、离线强化学习等算法在长视野、多模态输入下的性能评估与比较，形成了机器人学习领域一个活跃的研究分支。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集