LIBERO-Unseen

Name: LIBERO-Unseen
Creator: 纽约大学
Published: 2025-05-09 13:32:40
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

https://3d-cavla.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

LIBERO-Unseen数据集是LIBERO-90数据集的修改版本，用于评估机器人在未见任务上的泛化能力。该数据集包含40个未见任务，旨在通过模拟环境中的机器人操作来测试和提升机器人在面对新任务时的适应性和成功率。数据集的创建是为了解决机器人视觉-语言-动作模型在处理未见任务时存在的泛化问题，通过提供一系列未见任务，研究人员可以评估其模型在不同场景下的表现。

The LIBERO-Unseen dataset is a modified variant of the LIBERO-90 dataset, developed to evaluate a robot's generalization capability on unseen tasks. It comprises 40 unseen tasks, with the goal of testing and enhancing a robot's adaptability and success rate when encountering novel tasks via robotic manipulations in simulated environments. This dataset was created to address the generalization issues faced by robotic vision-language-action models when handling unseen tasks. By providing a series of such unseen tasks, researchers can assess their models' performance across diverse scenarios.

提供机构：

纽约大学

创建时间：

2025-05-09

搜集汇总

数据集介绍

构建方式

LIBERO-Unseen数据集的构建基于LIBERO-90数据集的任务框架，通过修改Behavior Domain Definition Language (BDDL)文件设计出10个全新的任务场景。这些任务在语义和逻辑上与原始训练集保持关联，但通过重新组合对象和动作指令形成未见过的任务组合。数据采集采用双摄像头配置（固定第三人称视角和机械臂末端视角），同步记录RGB-D图像、机器人关节状态及语言指令，并通过GPT-4生成链式思维分解步骤，形成多模态交互轨迹。

特点

该数据集的核心特点体现在三维场景理解与零样本泛化能力的结合。通过引入深度点云特征编码器，将传统2D视觉输入扩展为包含空间几何信息的3D表征；任务感知的感兴趣区域检测机制动态聚焦关键操作区域，降低无关背景干扰；链式思维指令分解则通过语义推理桥接已知技能与未知任务。实验表明，该配置使模型在保持98.1%已知任务成功率的同时，对未见任务实现8.8%的绝对性能提升。

使用方法

使用该数据集需遵循多阶段流程：首先基于LIBERO-90进行模型预训练，掌握基础物体操作技能；随后加载LIBERO-Unseen任务定义文件进行零样本评估。评估时输入包含双视角RGB-D图像、关节状态及原始语言指令，模型需自动生成链式思维步骤并输出机械臂关节轨迹。研究者可通过对比TA-ROI模块的激活区域与真实操作轨迹，分析空间注意力机制的泛化能力，或修改BDDL文件扩展新的测试任务以验证不同模态对零样本性能的贡献度。

背景与挑战

背景概述

LIBERO-Unseen数据集由纽约大学的研究团队于2025年提出，旨在推动机器人视觉-语言-动作（VLA）模型在未知任务中的泛化能力研究。该数据集基于LIBERO仿真环境构建，通过修改原始LIBERO-90任务的行为域定义语言（BDDL）文件，专门设计了10个未见过的任务场景，用于测试模型在零样本条件下的适应性。研究团队提出的3D-CAVLA模型通过整合深度感知、链式思维推理和任务感知兴趣区域检测等创新方法，在LIBERO基准测试中实现了98.1%的平均成功率，并在未知任务上取得8.8%的绝对性能提升。该数据集为机器人领域探索多模态融合与跨任务迁移提供了重要基准。

当前挑战

LIBERO-Unseen数据集面临的核心挑战体现在两个方面：在领域问题层面，现有VLA模型难以将训练阶段学习的2D视觉-语言映射有效迁移至包含新物体、新空间关系的3D未知任务场景，尤其在长时程任务中易受语义干扰和动作累积误差影响；在构建过程中，研究团队需解决仿真环境与真实世界的域差距问题，通过精心设计任务指令的语义多样性来避免测试时出现数据泄露，同时平衡任务难度以确保评估的公正性。此外，深度信息与RGB模态的异构特征融合、链式思维提示的自动生成质量，以及兴趣区域检测对背景信息的过滤程度，均为影响模型泛化能力的关键技术难点。

常用场景

经典使用场景

LIBERO-Unseen数据集在机器人视觉-语言-动作（VLA）模型的研究中扮演了关键角色，特别是在零样本任务泛化能力的评估上。该数据集通过模拟多样化的家庭环境任务，如物体抓取、放置和长时程任务规划，为研究者提供了一个标准化的测试平台。其经典使用场景包括模型在未知任务中的适应性测试，例如模型从未训练过的物体组合或任务指令下的表现评估。

衍生相关工作

围绕LIBERO-Unseen数据集衍生了多项重要研究，包括OpenVLA-OFT的高效微调框架、基于扩散变换器的多模态策略学习以及OTTER模型的文本感知特征提取方法。这些工作共同推动了VLA模型在计算效率、多传感器融合和长时程任务规划方面的进展。特别值得注意的是，该数据集催生的链式思维提示技术已被广泛应用于机器人任务分解领域，成为提升模型可解释性的重要手段。

数据集最近研究