libero_object_image

Name: libero_object_image
Creator: lerobot
Published: 2025-09-19 00:00:00
License: 暂无描述

Hugging Face2025-09-19 更新2025-09-19 收录

下载链接：

https://hf-mirror.com/datasets/lerobot/libero_object_image

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列以物体为中心的图像数据，主要用于计算机视觉和机器人学习任务。数据集中包含多视角、多场景下的物体图像，涵盖日常生活中的常见物品，如餐具、玩具、工具等。每张图像均附带详细的标注信息，包括物体类别、边界框坐标、像素级分割掩码以及相机视角参数。此外，部分数据还提供了物体在场景中的位姿信息和背景环境描述。数据集经过精心整理，确保图像质量高、标注准确，适用于目标检测、实例分割、位姿估计等视觉任务的研究与模型训练。整体规模适中，数据多样性较好，能够有效支持算法泛化能力的验证。

This dataset contains a collection of object-centric image data, primarily intended for computer vision and robotic learning tasks. It includes object images captured from multiple viewpoints and across diverse scenarios, covering common daily objects such as tableware, toys, tools, and more. Each image is accompanied by detailed annotation information, including object category, bounding box coordinates, pixel-level segmentation masks, and camera viewpoint parameters. Additionally, some of the data provides the pose information of objects in the scene and descriptions of the background environment. The dataset has been meticulously curated to ensure high image quality and accurate annotations, making it suitable for research and model training of visual tasks such as object detection, instance segmentation, and pose estimation. With a moderate overall scale and good data diversity, it can effectively support the verification of algorithm generalization capabilities.

提供机构：

lerobot

创建时间：

2025-09-19

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

数据格式: Parquet
总任务数: 10
总片段数: 454
总帧数: 66984
总视频数: 0
总块数: 1
块大小: 1000
帧率: 10 FPS
分割: 训练集（0:454）

特征描述

observation.images.image: 图像数据，形状为[256, 256, 3]，数据类型为图像
observation.images.wrist_image: 手腕图像数据，形状为[256, 256, 3]，数据类型为图像
observation.state: 状态数据，形状为[8]，数据类型为float32，包含电机参数（x、y、z、rx、ry、rz、rw、gripper）
action: 动作数据，形状为[7]，数据类型为float32，包含电机参数（x、y、z、roll、pitch、yaw、gripper）
timestamp: 时间戳，形状为[1]，数据类型为float32
frame_index: 帧索引，形状为[1]，数据类型为int64
episode_index: 片段索引，形状为[1]，数据类型为int64
index: 索引，形状为[1]，数据类型为int64
task_index: 任务索引，形状为[1]，数据类型为int64

机器人信息

机器人类型: panda
代码库版本: v2.0

数据存储

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，高质量数据集的构建对算法训练至关重要。libero_object_image数据集依托LeRobot平台，采用Franka Panda机器人采集了454个任务片段，总计66984帧数据。数据以10Hz频率记录，存储为Parquet格式，每个片段包含机器人状态观测图像、关节动作及时间戳等多模态信息，确保了数据的完整性与时序一致性。

特点

该数据集的核心特征体现在其多模态结构化设计上。观测数据包含256x256分辨率的双目图像（正视与腕部视角）及8维浮点状态向量，动作空间则采用7维电机控制参数。数据按任务索引与帧索引严格对齐，支持端到端的模仿学习与强化学习研究。所有特征均附带维度命名元数据，极大提升了数据可解释性与工程适配性。

使用方法

研究者可通过加载Parquet文件直接访问时序对齐的多模态数据流。典型应用包括端到端策略学习、视觉-动作映射建模或跨任务泛化研究。数据集默认提供全训练集划分，用户可依据帧索引或任务索引提取特定片段，亦可结合LeRobot工具链进行数据可视化与预处理，以适应不同机器人学习框架的需求。

背景与挑战

背景概述

在机器人视觉与操作研究领域，高质量数据集对于推动算法发展具有关键作用。libero_object_image数据集由LeRobot团队构建，专注于机器人操作任务的多模态数据采集。该数据集采用Franka Panda机器人平台，包含454个任务片段和近6.7万帧图像数据，通过双视角视觉系统（主视角和腕部视角）记录机器人操作过程中的高分辨率图像序列与精确的动作控制信号，为机器人模仿学习与视觉运动控制研究提供了重要基础。

当前挑战

该数据集致力于解决机器人视觉操作中的复杂挑战，包括高维视觉信息与低维动作空间的映射问题、多模态数据的时序对齐难题以及跨任务泛化能力的提升。在构建过程中，研究人员面临传感器同步精度保障、大规模数据存储优化、机器人动作轨迹的平滑性与安全性平衡等工程挑战，同时需确保数据标注的一致性和任务定义的清晰性，这些因素共同构成了数据集构建的技术难点。

常用场景

经典使用场景

在机器人视觉控制研究领域，libero_object_image数据集通过提供包含物体图像与机械臂状态的多模态数据，成为训练端到端视觉运动策略的经典基准。研究者利用其丰富的图像观测序列和对应的动作标签，开发能够直接从像素输入预测控制指令的深度学习模型，显著推进了视觉伺服技术的发展。

解决学术问题

该数据集有效解决了模仿学习与强化学习中高质量演示数据稀缺的难题，为行为克隆、离线强化学习等算法提供了标准化评估环境。通过提供精确的时间对齐多模态数据，它支持研究者探索状态表示学习、跨模态对齐等核心问题，对机器人自主技能获取研究具有重要价值。

衍生相关工作

围绕该数据集衍生出多项经典研究，包括基于Transformer的多模态策略网络、视觉运动表征学习框架以及跨任务泛化方法。这些工作推动了机器人学习领域的算法创新，特别是在处理部分可观测环境、实现零样本技能迁移等方面取得了显著进展，形成了完整的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集