LIBERO-Para
收藏github2026-04-08 更新2026-04-09 收录
下载链接:
https://github.com/cau-hai-lab/LIBERO-Para
下载链接
链接失效反馈官方服务:
资源简介:
LIBERO-Para是一个用于评估视觉语言动作(VLA)模型释义鲁棒性的诊断基准和度量标准。它扩展了LIBERO,包含了超过4,000条释义指令,覆盖10个评估场景,并且保留了原始LIBERO套件(Spatial, Object, Goal, LIBERO-10, LIBERO-90)的兼容性。
LIBERO-Para is a diagnostic benchmark and metric for evaluating the paraphrastic robustness of vision-language action (VLA) models. It extends LIBERO to include over 4,000 paraphrastic instructions, covering 10 evaluation scenarios, while retaining compatibility with the original LIBERO suite (Spatial, Object, Goal, LIBERO-10, LIBERO-90).
创建时间:
2026-03-24
原始信息汇总
LIBERO-Para 数据集概述
数据集基本信息
- 数据集名称:LIBERO-Para
- 核心定位:一个用于评估视觉语言动作(VLA)模型在机器人操作指令上对同义改写(Paraphrase)鲁棒性的诊断性基准和度量标准。
- 构建基础:在 LIBERO 基准测试集上扩展而来。
- 数据规模:包含超过 4,000 条经过同义改写的指令,覆盖 10 个评估场景。
核心特性
- 统一基准:所有同义改写指令和评估场景均集成在单一代码库中。
- 原始兼容性:完整保留了原始的 LIBERO 套件(Spatial, Object, Goal, LIBERO-10, LIBERO-90),可在同一代码库中进行评估。
- 多模型评估:集成了 6 个 VLA 模型,并为每个模型提供了独立的 Conda 环境、评估脚本和分步指南。
- PRIDE 度量标准:提出了一种新的、考虑难易度的度量标准,用于超越二元的成功率,对在更难的同义改写上取得成功的模型给予更高评价。
同义改写分类法
机器人操作指令本质上围绕“对何物操作”和“如何操作”构建。LIBERO-Para 沿这两个基本轴分解同义改写:
- 对象指代表达:对操作对象的描述进行改写。
- 动作指代表达:对执行动作的描述进行改写。 独立变化每个轴,并将两者组合可产生组合式同义改写。
评估模型
数据集提供了对以下 VLA 模型的评估支持(状态截至 README 发布时):
| 模型 | 参数量 | 架构 | 发布年份 | 状态 |
|---|---|---|---|---|
| OpenVLA-OFT (Goal) | 7.5B | 并行解码 | 2025.03 | 支持完成 |
| OpenVLA-OFT (Mixed) | 7.5B | 并行解码 | 2025.03 | 支持完成 |
| Pi0.5 | 3.3B | VLM + 动作专家 | 2025.09 | 进行中 |
| X-VLA | 0.9B | 软提示 | 2026.01 | 支持完成 |
| VLA-Adapter | 0.6B | 桥接式 | 2025.09 | 支持完成 |
| Xiaomi-Robotics-0 | 4.7B | VLM + 动作专家 | 2026.02 | 支持完成 |
PRIDE 度量标准详解
- 全称:Paraphrase Robustness Index in Robotic Instructional Deviation(机器人指令偏差中的同义改写鲁棒性指数)。
- 目的:评估 VLA 模型处理同义改写指令的鲁棒性。
- 计算方式:通过关键词相似度(S<sub>K</sub>)和结构相似度(S<sub>T</sub>)计算同义改写距离(PD),然后衡量 PD 加权的成功次数与总可能 PD 的比率,并归一化到 0–100 分。
- 优势:相较于普通的成功率,PRIDE 对在偏差更大、更困难的同义改写上取得的成功给予更多权重。
项目结构
主要目录及文件说明:
libero/:基准核心(基于 LIBERO)。metrics/:PRIDE 度量标准与分析工具。eval_guides/:每个模型的设置指南。eval_scripts/:包含模型克隆目录和每个模型的评估脚本示例。logs_para/:评估结果,包含示例数据(example_xiaomi-robotics-0/)。benchmark_scripts/与scripts/:基准测试和相关脚本。
相关资源
- 论文地址:https://arxiv.org/pdf/2603.28301
- 项目主页:https://cau-hai-lab.github.io/LIBERO-Para/
- Hugging Face 数据集:https://huggingface.co/datasets/HAI-Lab/LIBERO-Para
- 度量标准详情:
metrics/README.md - PRIDE 交互式演示:
metrics/PRIDE_metric_playground.ipynb
搜集汇总
数据集介绍

构建方式
在视觉语言动作模型稳健性评估领域,LIBERO-Para数据集的构建遵循了系统化的设计原则。该基准以LIBERO框架为基础,通过解构机器人操作指令的核心语义要素——对象指代表达与动作指代表达,生成了超过四千条经过精心设计的同义改写指令。这些改写指令覆盖了十个评估场景,不仅独立地变换了对象与动作的表述方式,还通过组合两者生成了更具复杂性的复合型改写,从而构建出一个层次分明、覆盖全面的诊断性评测集合。
特点
LIBERO-Para数据集展现出多维度融合的显著特点。它提供了一个统一的评测基准,将原始LIBERO的所有任务套件与新增的改写指令集整合于单一代码库中,确保了评估的一致性与便捷性。数据集引入了创新的PRIDE度量指标,该指标超越了传统的二元成功率,通过结合关键词相似度与结构相似度计算改写距离,对模型在更具挑战性的改写指令上的成功表现赋予更高权重,从而提供了对模型稳健性更精细、更具区分度的评估。
使用方法
该数据集的使用流程清晰且具备良好的可扩展性。评估者首先需配置特定模型的独立运行环境,随后利用数据集提供的评估脚本,将预先创建的十个LIBERO仿真环境中的原始指令替换为对应的改写指令,并调用模型进行推理。数据集为多个主流视觉语言动作模型提供了分步指南和定制化脚本,用户亦可遵循既定模板,轻松集成新的模型进行评估。完成评估后,可通过配套的分析工具计算PRIDE等指标,实现对模型性能的深入解读与跨模型比较。
背景与挑战
背景概述
在视觉语言动作模型日益成为机器人指令理解核心的背景下,对模型在自然语言指令变体下的鲁棒性评估显得尤为重要。LIBERO-Para数据集由淑明女子大学与中央大学的研究团队于2026年创建,旨在为视觉语言动作模型提供一个诊断性的同义改写鲁棒性基准。该数据集基于经典的机器人操作基准LIBERO进行扩展,围绕“操作对象”与“执行动作”两个语义轴系统性地构建了超过四千条改写指令,覆盖十个评估场景。其核心研究问题聚焦于量化模型对语言表述变化的容忍度,从而推动能够可靠理解人类多样化指令的智能体发展,对机器人自然交互领域的算法评测与模型改进具有显著的指导意义。
当前挑战
该数据集致力于解决视觉语言动作模型在理解同义改写指令时面临的鲁棒性挑战。具体而言,模型需要准确解析在对象指代表达和动作指代表达上发生词汇与句法变化的指令,并执行正确的物理操作,这对模型的语义 grounding 与组合泛化能力提出了极高要求。在构建过程中,挑战主要源于如何系统性地定义与生成具有语义一致性与难度梯度的改写指令,以及如何设计超越二值成功率的、能够敏感反映模型在困难样本上表现的评估指标,例如团队所提出的PRIDE度量。
常用场景
经典使用场景
在具身智能与机器人学习领域,指令理解的鲁棒性是评估视觉语言动作模型性能的核心挑战。LIBERO-Para数据集通过构建超过4000条经过系统化改写的机器人操作指令,为研究者提供了一个标准化的诊断性基准。该数据集最经典的使用场景在于系统性地评估VLA模型对自然语言指令中对象指称与动作指称的多种同义表达的理解能力,从而精确衡量模型在面临语言变体时的泛化性能与稳定性。
解决学术问题
该数据集旨在解决机器人学习中长期存在的关键学术问题:如何量化并提升模型对自然语言指令的语义鲁棒性。传统评估往往依赖单一或有限的指令表述,难以揭示模型在面对真实世界中丰富多变的语言表达时的脆弱性。LIBERO-Para通过其精细的改写分类学与新颖的PRIDE度量指标,为学术界提供了系统分析模型在组合性改写、对象及动作指称变化等维度上性能退化的工具,推动了从粗粒度成功率评估向细粒度、难度感知的鲁棒性评估范式的转变。
衍生相关工作
围绕LIBERO-Para数据集及其提出的评估范式,已经催生了一系列关注VLA模型鲁棒性的相关研究。其构建基础LIBERO本身便是终身机器人学习领域的经典基准。而基于LIBERO-Para的评估结果,后续工作可以深入探究模型架构、训练数据构成与指令鲁棒性之间的关联,例如分析不同参数规模的模型或不同解码策略对改写指令的敏感度。该基准也为开发新的对抗性训练方法或数据增强策略以提升模型鲁棒性提供了明确的优化目标与验证标准。
以上内容由遇见数据集搜集并总结生成



