smol-libero

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceVLA/smol-libero

下载链接

链接失效反馈

官方服务：

资源简介：

Smol-LIBERO是一个LIBERO基准的紧凑版本，大小仅为1.79 GB（相比之下，完整的LIBERO约为34 GB）。它包含较少的轨迹和摄像头，但保持了多种模式结构。每个样本包括来自两个固定摄像头的图像、两种类型的机器人状态（末端执行器位姿+夹爪和完整的7自由度关节位置）以及动作（7自由度关节命令）。这种设置特别适合比较低维状态输入和高维视觉输入，或者在多模态训练中将它们结合起来。

Smol-LIBERO is a compact variant of the LIBERO benchmark, with a total size of only 1.79 GB (by comparison, the full LIBERO benchmark is approximately 34 GB). It contains fewer trajectories and camera views, while retaining its multi-modal structural characteristics. Each sample includes images from two fixed cameras, two types of robot states (end-effector pose + gripper state, and full 7-degree-of-freedom (7-DoF) joint positions), as well as actions (7-DoF joint commands). This setup is particularly suitable for comparing low-dimensional state inputs and high-dimensional visual inputs, or for combining them in multi-modal training.

创建时间：

2025-08-28

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集摘要

Smol-LIBERO是LIBERO基准测试的紧凑版本，旨在实现快速和可访问的实验。数据集大小为1.79 GB（完整LIBERO约为34 GB），包含较少的轨迹和相机，同时保持相同的多模态结构。

数据集结构

配置名称: default
数据文件: data//.parquet

数据字段

observation.images.image: 256×256×3 RGB图像（相机1）
observation.images.image2: 256×256×3 RGB图像（相机2）
observation.state（8个浮点数）：末端执行器笛卡尔姿态+夹爪 [x, y, z, roll, pitch, yaw, gripper, gripper]
observation.state.joint（7个浮点数）：完整关节角度 [joint_1, …, joint_7]
action（7个浮点数）：目标关节命令

规模较小的原因

较少的轨迹/任务 → 完整基准测试的子集
仅两个相机视图 → 减少视觉冗余
减少总帧数 → 较短的片段或较低的FPS

预期用途

快速原型设计和调试
比较关节空间与笛卡尔状态输入
在扩展到LIBERO之前训练小型VLA基线

局限性

与LIBERO相比，任务和视觉多样性较小
仅两个固定相机视图
可能无法完全代表在较大基准测试上的泛化行为

引用信息

BibTeX: bibtex [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据规模与实验效率常存在权衡关系，Smol-LIBERO数据集通过精心筛选原始LIBERO基准中的任务子集构建而成。其采用多模态数据采集框架，同步捕获双固定视角的256×256像素RGB图像，并集成两种机器人状态表征：末端执行器位姿结合夹爪状态构成的8维向量，以及完整7自由度关节角度数据。动作空间则统一表示为7维关节指令，所有数据以标准化Parquet格式存储，显著降低存储需求至1.79GB。

特点

该数据集核心特征体现在其紧凑而完整的多模态架构中，既保留视觉观测与状态输入的并行通道，又通过双摄像头配置维持空间感知能力。图像数据采用标准化分辨率确保模型输入一致性，而双重状态表征体系为对比研究低维状态输入与高维视觉输入的相对效能提供了理想实验基础。其动作空间的关节级指令编码方式更贴近真实控制场景，为模仿学习与行为克隆算法提供精准监督信号。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用标准数据加载器解析Parquet文件中的多模态流。典型应用流程包括分别提取双视角图像序列与两种状态向量，构建端到端的视觉-动作映射模型。该数据集特别适用于验证多模态融合策略的有效性，或作为全尺度LIBERO基准实验前的快速验证平台。实验者可自由选择纯视觉输入、纯状态输入或混合输入模式，通过对比不同输入模态下的策略性能深化对机器人感知-控制机制的理解。

背景与挑战

背景概述

Smol-LIBERO数据集作为LIBERO基准测试的精简版本，由LeRobot团队开发，旨在推动机器人学习领域的可及性与实验效率。该数据集聚焦于多模态机器人操作任务，通过整合双摄像头视觉输入与两种机器人状态表征，为研究者提供了紧凑而丰富的数据资源。其核心研究问题在于探索低维状态输入与高维视觉输入的协同机制，以及对多模态训练策略的优化，自发布以来已成为机器人视觉语言动作模型研究的重要基础数据集。

当前挑战

该数据集主要解决机器人操作任务中多模态感知与动作生成的挑战，包括视觉-状态对齐、跨模态表征学习及动作预测精度等问题。构建过程中面临数据规模与多样性平衡的挑战，需在保持多模态结构完整性的同时压缩数据量，具体涉及轨迹筛选策略优化、摄像头视角缩减与帧率调整等技术难点，以确保数据集既轻量化又具备科研代表性。

常用场景

经典使用场景

在机器人学习领域，Smol-LIBERO数据集为研究者提供了一个高效的实验平台。该数据集通过双摄像头视觉输入与两种机器人状态数据的结合，支持多模态学习模型的快速验证。研究者可基于其紧凑结构开展模仿学习与行为克隆研究，特别是在关节空间与笛卡尔空间控制策略的对比分析中展现显著价值。

衍生相关工作

基于Smol-LIBERO的衍生研究主要集中在高效能视觉语言动作模型架构创新领域。研究者开发了多种基于注意力机制的多模态融合方法，并提出了适用于紧凑数据集的课程学习策略。这些工作显著推动了轻量化机器人学习模型的发展，为后续LIBERO完整基准的扩展研究奠定了理论基础。

数据集最近研究