oorbt/libero_10_lerobot

Name: oorbt/libero_10_lerobot
Creator: oorbt
Published: 2026-04-25 12:39:24
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/oorbt/libero_10_lerobot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于LeRobot创建的，原始数据来源于LIBERO数据集。数据集包含机器人相关的多种特征，如图像（256x256分辨率，3通道）、状态（8维浮点数）、动作（7维浮点数）等。数据集总共有379个episodes，101469帧，10个不同任务。数据以parquet格式存储，视频以mp4格式存储，帧率为10fps。数据集主要用于机器人领域的研究和应用。

This dataset was created using LeRobot, based on the raw LIBERO dataset. It contains various robot-related features such as images (256x256 resolution, 3 channels), state (8-dimensional float), action (7-dimensional float), etc. The dataset consists of 379 episodes, 101469 frames, and 10 different tasks. Data is stored in parquet format, videos in mp4 format, with a frame rate of 10fps. The dataset is primarily used for robotics research and applications.

提供机构：

oorbt

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量示范数据的易用性对算法迭代至关重要。libero_10_lerobot数据集基于原始LIBERO数据集，经由LeRobot框架进行标准化处理与格式转换而构建。原始数据来自openVLA项目提供的修改版LIBERO数据集，LeRobot将其重构为统一的parquet和mp4文件格式，并按照预设的chunks_size（1000帧/块）进行分块存储。数据集包含10个不同的操作任务，总计379条示范轨迹，涵盖101,469帧视觉与状态信息。所有数据均采用Apache-2.0开源许可发布，以促进机器人模仿学习研究的复现与拓展。

特点

该数据集在设计上呈现出三大特点：其一，采用高分辨率（256×256）双目视觉观测，以AV1编码存储为10fps的视频流，兼顾画质与存储效率；其二，状态空间涵盖8维机器人关节及末端执行器信息，动作空间为7维连续指令，便于与主流控制算法对接；其三，数据按episode_index、frame_index等索引字段精细组织，并标注了task_index以实现多任务归因。此外，数据集提供了完整的元信息（info.json），明确记录了机器人类型（Panda）、总帧数、数据/视频文件体积等关键属性，极大提升了数据的可解释性与使用便捷性。

使用方法

研究者可通过LeRobot库直接加载该数据集，其默认配置指向data/*/*.parquet路径下的所有分块文件。加载时，系统会自动解析parquet中存储的观测、状态、动作及时间戳等字段，并同步索引对应的MP4视频文件。为便于快速预览，Hugging Face Spaces上提供了交互式可视化工具。在模型训练中，建议采用10fps的原始时序率进行行为克隆或离线强化学习，利用task_index区分不同任务条件。数据的分块机制（chunk_index）支持大规模数据的流式读取，有效降低内存开销，适合在单机多卡环境下分布式处理。

背景与挑战

背景概述

机器人操作任务的泛化与迁移学习是具身智能领域的前沿问题，其核心挑战在于如何从有限的任务演示中提取可复用的技能表征。LIBERO数据集由多位研究者基于仿真环境构建，旨在为机器人长期操作任务提供一个标准化的基准测试平台。libero_10_lerobot作为该数据集的子集，由LeRobot框架重新处理并发布，侧重于十种特定桌面操作任务，如抓取与放置等。该数据集通过记录Franka Emika Panda机械臂的物理状态与双视角视觉观测（分辨率256×256），共计包含379个演示片段、超过10万帧数据，为模仿学习、离线强化学习等算法提供了高质量的训练语料。其开源的Apache-2.0许可与标准化接口设计，显著降低了机器人学习研究的入门门槛，已成为评估技能习得算法泛化能力的重要参考基准。

当前挑战

当前机器人操作学习领域面临的核心挑战在于如何弥合仿真数据与现实转移之间的鸿沟。libero_10_lerobot虽提供了高保真的仿真演示，但其任务场景仅覆盖十种高度结构化的桌面操作，缺乏光照变化、物体随机扰动及动态障碍等真实环境的复杂性，导致基于该数据集训练的模型难以直接迁移至物理世界。从数据构建角度，尽管采用了LeRobot的标准化流程，但原始LIBERO数据在动作空间与观测维度上的异质性需要精细的格式转换，过程中可能引入观测噪声（如视频编码导致的特征退化）与状态采样不一致。此外，10Hz的低采样频率无法捕捉高速动态任务中的细微动作，而单一的Panda机械臂构型限制了算法对异构机器人平台的泛化潜力。这些因素共同制约了数据集在长期任务推理与多环境适应场景下的基准效能。

常用场景

经典使用场景

在机器人学习领域，libero_10_lerobot数据集作为一套精心设计的模仿学习基准，其核心价值在于为机械臂操控任务提供标准化的训练与评估平台。该数据集包含10种不同的操作任务，涵盖物体抓取、放置、堆叠等基础动作，并提供了379个完整演示片段，总计超过10万帧的高清视觉与状态信息。研究者通常利用这一数据集来训练和测试基于视觉的模仿学习算法，如行为克隆或逆强化学习，以探讨机器人在精细化操作中的决策能力与泛化性能。

衍生相关工作

围绕libero_10_lerobot数据集已衍生出一系列具有代表性的研究工作。最突出的包括基于该数据集开发的多任务模仿学习架构，以及将视觉-语言模型与机器人动作预测相融合的跨模态方法。此外，研究者利用此数据构建了动作序列的变分自编码器模型，探索潜在动作表征的泛化能力。这些经典工作不仅验证了数据集的基准价值，还催生了如行为先验学习、非对称策略蒸馏等创新技术，丰富了机器人学习的技术储备库。

数据集最近研究