libero_10_id4_yellow_white_mug_pick_place_merged_SP

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/OliverHausdoerfer/libero_10_id4_yellow_white_mug_pick_place_merged_SP

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人相关数据集，使用LeRobot创建。包含244个episodes，11518帧数据，涉及2个任务。数据以parquet格式存储，包含视频和状态观测数据。视频数据分辨率为256x256，帧率20fps，包含RGB图像。状态观测数据包含8维浮点数，表示机器人的电机状态。动作数据也是8维浮点数，包含位置、角度、夹持器状态和成功预测。

创建时间：

2026-01-14

原始信息汇总

数据集概述

基本信息

数据集名称: libero_10_id4_yellow_white_mug_pick_place_merged_SP
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学

数据集统计

总情节数: 244
总帧数: 11518
总任务数: 2
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 20 FPS
代码库版本: v3.0
机器人类型: franka

数据划分

训练集: 包含所有244个情节（索引0至244）。

数据结构与特征

数据以Parquet文件格式存储，路径模式为：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet。视频以MP4格式存储，路径模式为：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4。

特征描述

observation.images.image
- 数据类型: 视频
- 形状: [256, 256, 3] (高度，宽度，RGB)
- 视频信息: 高度256像素，宽度256像素，编码AV1，像素格式yuv420p，非深度图，帧率20 FPS，3个通道，无音频。
observation.images.image2
- 数据类型: 视频
- 形状: [256, 256, 3] (高度，宽度，RGB)
- 视频信息: 高度256像素，宽度256像素，编码AV1，像素格式yuv420p，非深度图，帧率20 FPS，3个通道，无音频。
observation.state
- 数据类型: float32
- 形状: [8]
- 维度名称 (电机): x, y, z, ax, ay, az, g1, g2。
timestamp
- 数据类型: float32
- 形状: [1]
frame_index
- 数据类型: int64
- 形状: [1]
episode_index
- 数据类型: int64
- 形状: [1]
index
- 数据类型: int64
- 形状: [1]
task_index
- 数据类型: int64
- 形状: [1]
action
- 数据类型: float32
- 形状: [8]
- 维度名称 (电机): x, y, z, ax, ay, az, gripper, success_prediction。

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。libero_10_id4_yellow_white_mug_pick_place_merged_SP数据集依托LeRobot开源框架构建而成，其采集过程通过Franka机器人平台执行，专注于拾取与放置黄色和白色马克杯的特定任务。数据以20帧每秒的速率记录，涵盖了244个完整操作片段，总计超过11500帧图像与状态数据。原始观测信息，包括双视角的RGB视频流与8维机器人状态向量，被系统性地编码并存储于Parquet格式文件中，确保了数据的高效存取与结构化组织。

特点

该数据集的核心特征体现在其多模态与精细化的数据结构设计上。它同步提供了两路分辨率为256x256的RGB视觉观测流，能够从不同视角捕捉操作场景的丰富细节。同时，数据集包含了精确的8维机器人关节状态与相应的8维动作指令，其中动作空间明确区分了末端执行器的空间位姿、夹爪控制及任务成功预测信号。所有数据均以时间戳、帧索引与片段索引进行严格对齐，并采用AV1编码压缩视频，在保证视觉质量的前提下显著减少了存储开销，为算法训练提供了高一致性与可复现性的数据基础。

使用方法

为便于研究者高效利用，数据集已预先划分为训练集，用户可通过标准的HuggingFace数据集库或LeRobot工具链进行加载。数据以分块形式组织，每个数据块约包含1000帧，通过解析指定的Parquet文件路径即可访问结构化的特征张量。典型的应用流程包括：加载特定片段的数据，提取观测图像、机器人状态及动作标签，进而用于训练视觉运动策略或进行行为克隆分析。数据集遵循Apache 2.0开源协议，鼓励在机器人学习、轨迹预测及多模态感知等研究方向上进行广泛的探索与模型开发。

背景与挑战

背景概述

在机器人操作学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。libero_10_id4_yellow_white_mug_pick_place_merged_SP数据集正是这一背景下的产物，它由Hugging Face的LeRobot项目创建，专注于记录Franka机器人执行特定拾放任务的交互过程。该数据集包含了244个完整交互片段，总计超过11500帧的多模态观测数据，涵盖了双视角视觉输入、机器人状态以及精确的动作指令。其核心研究问题在于如何构建一个结构化、可复现的真实机器人操作数据集，以支持端到端策略学习的研究，尤其是在复杂物体操作与场景泛化方面。该数据集的发布为社区提供了宝贵的真实机器人交互基准，有助于降低机器人学习研究的入门门槛，并推动从仿真到真实世界迁移的算法验证。

当前挑战

该数据集旨在解决机器人操作学习中的具体任务泛化与策略迁移挑战，即如何让机器人从有限的演示数据中学习鲁棒且通用的拾放技能。在构建过程中，面临多重技术挑战：首先，真实机器人数据采集需确保高精度的时间同步与传感器校准，以对齐多路视频流与关节状态数据；其次，大规模交互数据的存储与高效读取要求设计紧凑的序列化格式，如采用Parquet与视频编码来平衡数据质量与存储开销；再者，标注动作空间的连续性与一致性至关重要，需精确记录末端执行器的位姿与夹爪状态以支持监督学习。此外，数据集的多样性受限于采集场景与物体配置，如何扩展任务范围以覆盖更广泛的物理交互变化，仍是未来数据收集需要克服的瓶颈。

常用场景

经典使用场景

在机器人操作与强化学习领域，libero_10_id4_yellow_white_mug_pick_place_merged_SP数据集为机械臂抓取与放置任务提供了丰富的多模态演示数据。该数据集通过Franka机械臂采集了244个完整操作序列，包含双视角RGB视频与机器人状态信息，典型应用于训练模仿学习或离线强化学习模型，以学习从视觉输入到动作输出的映射策略，实现精准的物体操控。

解决学术问题

该数据集有效应对了机器人学中样本效率低下与泛化能力不足的核心挑战。通过提供结构化、高质量的真实世界交互数据，它支持研究者探索数据驱动的策略学习方法，减少对昂贵在线试错的依赖，并促进跨任务、跨场景的技能迁移研究，为构建通用型机器人操作系统奠定了数据基础。

衍生相关工作

围绕该数据集及其所属的LeRobot项目生态，已衍生出一系列专注于机器人模仿学习与视觉运动控制的研究工作。这些工作通常利用其多模态序列数据，开发端到端的策略网络或世界模型，以实现在少量演示下学习复杂操作技能，并进一步推动了开源机器人数据集标准化与共享社区的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集