LIBERO

Name: LIBERO
Creator: 中国浙江大学, 中国西湖大学, 中国南方科技大学, 中国香港科技大学（广州）
Published: 2025-10-17 01:18:34
License: 暂无描述

arXiv2025-10-17 更新2025-10-18 收录

下载链接：

https://vla-2.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

LIBERO数据集是一个用于评估机器人视觉语言动作模型（VLA）泛化能力的基准数据集。该数据集基于LIBERO仿真环境，包含三种难度级别的物体泛化任务，旨在测试模型处理未见概念（如未见物体描述和纹理）的能力。数据集包含500张随机渲染的图像，其中对象名称和边界框已手动标注，并通过数据增强处理。该数据集主要用于测试VLA2框架在处理未见概念时的有效性，并成功超越了当前最先进的模型。

The LIBERO dataset is a benchmark dataset for evaluating the generalization capabilities of robotic vision-language-action (VLA) models. Built upon the LIBERO simulation environment, it includes object generalization tasks across three difficulty levels, aiming to test models' ability to handle unseen concepts such as unseen object descriptions and textures. The dataset contains 500 randomly rendered images, with object names and bounding boxes manually annotated, and has undergone data augmentation processing. This dataset is primarily used to test the effectiveness of the VLA2 framework when handling unseen concepts, and has successfully outperformed current state-of-the-art models.

提供机构：

中国浙江大学, 中国西湖大学, 中国南方科技大学, 中国香港科技大学（广州）

创建时间：

2025-10-17

原始信息汇总

VLA² 数据集概述

基本信息

标题: VLA²: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
作者: Han Zhao*, Jiaxuan Zhang*, Wenxuan Song, Pengxiang Ding, Donglin Wang (*表示同等贡献)
机构: 浙江大学, MILAB西湖大学, 南方科技大学, 香港科技大学(广州)
年份: 2025
论文: arXiv preprint arXiv:2510.14902

框架介绍

VLA²是一个系统级框架，旨在通过支持调用多样化工具来增强视觉-语言-行动(VLA)系统的能力，从而扩展当前VLA模型的执行限制。

核心模块

任务规划
网络/记忆检索
物体定位
结果验证

关键技术

OOD信息处理: 处理包含未见概念的任务
掩码条件VLA: 通过应用彩色掩码处理目标物体和放置位置，作为上游未见概念识别和下游VLA任务执行之间的桥梁

实验评估

原始LIBERO基准测试

在使用OpenVLA作为骨干的所有方法中保持竞争力
在除LIBERO-Object外的所有基准测试中达到顶级性能

定制环境评估

基于LIBERO仿真环境设计了三类难度级别的物体泛化任务：

简单: 颜色变化
中等: 泛化目标物体操作
困难: 未见概念物体泛化

性能表现

随着基准难度增加，所有基线方法的任务成功率显著下降，而VLA²在需要强泛化能力的任务上展现出明显优势。

资源状态

代码: 即将发布
模型: 即将发布

搜集汇总

数据集介绍

构建方式

在机器人操作仿真领域，LIBERO数据集通过系统化扩展原始环境构建而成。研究团队基于LIBERO-Spatial、Goal、Object和Long四个基础场景，采用渐进式难度设计原则，分别创建了简单颜色替换（Easy）、目标物体泛化（Medium）和全新概念物体（Hard）三个层次的测试环境。具体构建过程中，通过人工标注500幅随机渲染图像的目标框与物体名称，并运用数据增强技术对MMGroundingDINO模型进行微调，确保物体检测的准确性。同时将原始RGB视频流替换为带有透明彩色掩膜的视觉输入，以增强模型对物体空间结构的感知能力。

特点

该数据集最显著的特征在于其严格分层的泛化测试体系。Easy级别仅涉及基础颜色的变异，Medium级别引入原生物体的形态替换，Hard级别则完全采用训练集外的新概念物体（如具有青花瓷纹样的碗具）。每个任务场景均保持原始LIBERO的环境架构，仅通过物体外观和语义描述的改变来构建分布外泛化挑战。数据集还提供了精确的掩膜标注和色彩编码系统，使视觉语言动作模型能够通过颜色线索建立物体与操作的对应关系，为评估模型在开放概念下的适应能力提供了标准化基准。

使用方法

使用该数据集时需遵循分层评估协议。研究者首先在原始LIBERO环境中测试模型的内域性能，随后依次在Easy、Medium和Hard三个自定义环境中进行零样本泛化能力评估。数据加载阶段需同步处理彩色掩膜视频流和重构的任务提示文本，其中任务描述被规划器分解为具有时序逻辑的子任务序列。评估过程中采用固定50次任务执行的统计策略，同时记录整体成功率与单任务成功率。模型需具备处理掩膜视觉输入和语义替换文本的能力，并通过验证模块对任务完成状态进行实时判断。

背景与挑战

背景概述

LIBERO数据集由西湖大学MiLAB团队于2023年提出，作为机器人终身学习领域的基准测试平台，聚焦于跨任务知识迁移的核心研究问题。该数据集通过构建模块化模拟环境，系统化评估智能体在序列任务中的泛化能力与技能复用机制，为具身智能研究提供了标准化评估框架。其创新性的任务设计范式显著推动了机器人操作任务从单一技能训练向开放世界适应的范式转变，成为视觉语言动作模型验证的重要实验基础。

当前挑战

该数据集面临的领域挑战在于解决开放词汇物体操作中的分布外泛化问题，传统视觉语言动作模型对训练集外物体概念的理解存在显著性能衰减。构建过程中的技术挑战包括：多模态数据对齐的语义鸿沟，仿真环境与真实世界的域差异适配，以及长视野任务中动作序列的时序一致性维护。此外，物体纹理替换与语言指令重构时需保持物理约束有效性，这对环境建模的精确性提出了更高要求。

常用场景

经典使用场景

在机器人操作研究领域，LIBERO数据集作为仿真环境基准，主要用于评估视觉-语言-动作模型在未知概念泛化任务中的表现。该数据集通过构建包含新颖物体纹理与语义描述的三级难度测试场景，系统检验模型对训练分布外对象的理解与操作能力，为智能体在开放世界中的适应性研究提供标准化验证平台。

衍生相关工作

基于该数据集构建的评估范式催生了系列创新研究，如融合网络检索的Agentic Robot框架、采用分层规划的MemoryVLA架构等。这些工作通过增强外部工具调用能力与记忆机制，持续拓展VLA模型的认知边界，形成了以知识增强为核心的具身智能技术路线，推动终身学习系统在复杂环境中的演进。

数据集最近研究