five

libero_spatial_image

收藏
Hugging Face2025-09-19 更新2025-09-19 收录
下载链接:
https://hf-mirror.com/datasets/lerobot/libero_spatial_image
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一系列用于机器人空间推理任务的图像数据,主要围绕家庭环境中的物体操作与场景理解。数据内容涵盖多个视角下的物体图像,包括不同摆放位置、遮挡情况以及空间关系变化。每张图像均标注了物体的类别、位置坐标及与其他物体的相对空间信息,例如距离、方向和层次结构。此外,数据集还提供了场景的多模态信息,如深度图像和语义分割标注,以支持更复杂的空间分析任务。这些数据适用于训练和评估机器学习模型在物体检测、场景理解和机器人自主操作等方面的性能。整体而言,该数据集旨在推动机器人技术在复杂环境中的空间感知与推理能力的发展。

This dataset comprises a collection of image data tailored for robotic spatial reasoning tasks, focusing primarily on object manipulation and scene understanding in household environments. The dataset covers object images captured from multiple perspectives, including varying placement positions, occlusion scenarios, and changes in spatial relationships. Each image is annotated with object categories, position coordinates, and relative spatial information between objects, such as distance, direction and hierarchical structure. Additionally, the dataset provides multi-modal scene information including depth images and semantic segmentation annotations to support more complex spatial analysis tasks. This data can be used to train and evaluate the performance of machine learning models in object detection, scene understanding, robotic autonomous manipulation and other related fields. Overall, this dataset aims to advance the development of robotic spatial perception and reasoning capabilities in complex environments.
提供机构:
lerobot
创建时间:
2025-09-19
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 机器人学
  • 标签: LeRobot

数据集结构

  • 总任务数: 10
  • 总情节数: 432
  • 总帧数: 52970
  • 总视频数: 0
  • 总块数: 1
  • 块大小: 1000
  • 帧率: 10 FPS
  • 分割: 训练集 (0:432)

数据特征

  • observation.images.image: 图像数据,形状为 [256, 256, 3],数据类型为图像
  • observation.images.wrist_image: 腕部图像数据,形状为 [256, 256, 3],数据类型为图像
  • observation.state: 状态数据,形状为 [8],数据类型为 float32,包含电机状态 (x, y, z, rx, ry, rz, rw, gripper)
  • action: 动作数据,形状为 [7],数据类型为 float32,包含电机动作 (x, y, z, roll, pitch, yaw, gripper)
  • timestamp: 时间戳数据,形状为 [1],数据类型为 float32
  • frame_index: 帧索引数据,形状为 [1],数据类型为 int64
  • episode_index: 情节索引数据,形状为 [1],数据类型为 int64
  • index: 索引数据,形状为 [1],数据类型为 int64
  • task_index: 任务索引数据,形状为 [1],数据类型为 int64

存储信息

  • 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
  • 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

代码库信息

  • 代码库版本: v2.0
  • 机器人类型: panda
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人技术领域,高质量的数据集对于算法训练至关重要。libero_spatial_image数据集通过LeRobot平台构建,采用panda机器人采集了432个任务片段,总计52970帧数据。数据以分块形式存储于parquet文件中,每块包含1000个片段,采样频率为10Hz,确保了数据的连续性与完整性。
特点
该数据集的特点体现在其多模态数据结构的精心设计上。除了包含256x256分辨率的双目视觉图像(主视角与腕部视角),还提供了8维状态向量与7维动作向量,覆盖了空间坐标、姿态及夹持器状态等关键参数。时间戳与索引字段的完整记录为时序分析提供了坚实基础,适用于机器人视觉-动作联合建模研究。
使用方法
研究者可通过解析parquet文件直接访问多模态数据流,其中图像数据以三维数组形式存储,状态与动作数据以浮点型向量呈现。数据集已预分为训练集,支持端到端的强化学习或模仿学习 pipeline 构建。建议结合LeRobot代码库进行数据加载与可视化,以实现机器人空间感知与动作生成的联合训练。
背景与挑战
背景概述
在机器人学习领域,空间感知与操作能力一直是核心研究议题。libero_spatial_image数据集由LeRobot团队基于Apache 2.0许可证构建,专为机器人视觉运动控制研究设计。该数据集采用Panda机器人平台,收录了432条任务轨迹与52970帧多视角图像数据,涵盖10类空间操作任务。通过高分辨率图像与精确的动作状态记录,为模仿学习与强化学习算法提供了丰富的训练资源,显著推动了机器人泛化操作能力的发展。
当前挑战
该数据集致力于解决机器人视觉运动控制中的空间操作泛化问题,其核心挑战在于高维视觉观测与连续动作空间的精确映射。构建过程中需克服多传感器时序同步、大规模图像数据存储效率以及真实环境动态干扰等难题。此外,动作轨迹的平滑性与任务多样性平衡、跨场景操作策略的迁移性验证,均是数据集应用面临的关键技术瓶颈。
常用场景
经典使用场景
在机器人视觉与运动控制研究中,libero_spatial_image数据集通过提供包含432个完整交互序列的空间视觉数据,为模仿学习与强化学习算法提供了标准化的训练与验证平台。该数据集以10Hz采样频率记录了机械臂的关节状态、视觉观察及动作执行序列,特别适用于空间操作任务的端到端策略学习。研究者可基于该数据集训练模型从多视角图像输入直接预测连续控制指令,推动机器人自主操作能力的发展。
实际应用
libero_spatial_image数据集的实际应用价值主要体现在工业自动化与家庭服务机器人领域。基于该数据集训练的视觉运动控制模型可应用于物品分拣、精密装配等工业场景,实现从视觉感知到动作执行的闭环控制。在服务机器人方面,该数据集的抓取与放置任务数据为开发智能家居助手提供了技术基础,使机器人能够通过视觉观察学习复杂的空间操作技能,显著提升了对非结构化环境的适应能力。
衍生相关工作
该数据集衍生了多个机器人学习领域的经典研究工作,特别是在视觉运动策略学习方面。基于其多模态数据特性,研究者开发了融合时空特征的卷积-循环神经网络架构,实现了从原始像素到连续动作的端到端学习。此外,该数据集还促进了分层强化学习方法的创新,许多研究利用其任务结构信息构建了基于子目标的学习框架。在表示学习领域,该数据集推动了自监督视觉特征提取技术的发展,为机器人感知系统提供了更高效的预训练方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作