five

LIBERO-CF

收藏
arXiv2026-02-20 更新2026-02-21 收录
下载链接:
https://vla-va.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
LIBERO-CF是由北卡罗来纳大学教堂山分校团队开发的首个反事实基准数据集,旨在系统评估视觉-语言-动作模型的语言遵循能力。该数据集基于LIBERO场景布局构建,包含50+全新设计的反事实任务,涵盖空间关系、目标对象、长时程任务和分布外对象四大测试维度。通过标准化验证流程,该数据集揭示了现有VLAs普遍存在的视觉捷径依赖问题,即模型会忽略语言指令而执行训练集中的高频视觉模式。数据集的应用聚焦于提升机器人操作任务中语言-视觉-动作的多模态对齐,为解决VLAs在实际部署中的反事实失效问题提供量化基准。

LIBERO-CF is the first counterfactual benchmark dataset developed by researchers at the University of North Carolina at Chapel Hill, designed to systematically evaluate the language following capabilities of vision-language-action (VLA) models. Constructed based on the LIBERO scene layout framework, this dataset includes over 50 newly proposed counterfactual tasks, covering four core test dimensions: spatial relations, target objects, long-horizon tasks, and out-of-distribution (OOD) objects. Through standardized validation procedures, this dataset uncovers the pervasive visual shortcut dependency problem plaguing current VLAs: models often disregard language instructions and instead execute high-frequency visual patterns present in their training datasets. The applications of this dataset center on improving language-vision-action multimodal alignment in robotic manipulation tasks, serving as a quantitative benchmark to address the counterfactual failure issues of VLAs during real-world deployment.
提供机构:
北卡罗来纳大学教堂山分校
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在机器人视觉-语言-动作模型研究领域,为系统评估模型在反事实指令下的语言遵循能力,LIBERO-CF基准数据集应运而生。该数据集基于广泛使用的机器人操作基准LIBERO构建,通过在其场景布局中分配替代性的可行语言指令而形成。具体而言,研究者设计了四个评估套件:CF-Spatial专注于评估空间语言理解,通过指定原本仅作为背景的对象;CF-Object检验模型对替代性物体中心指令的响应;CF-Long评估涉及新目标的多步长时程指令遵循;CF-OOD则测试模型对训练中完全未见过的分布外对象的泛化能力。这种构建方式旨在模拟现实场景中指令监督有限的情况,从而揭示模型因视觉捷径而产生的反事实失败。
使用方法
在机器人学习与多模态模型评估领域,LIBERO-CF数据集主要用于系统测评与提升视觉-语言-动作模型的性能。研究者可利用该数据集对预训练的VLA模型进行微调后的评估,通过运行四个套件中的反事实任务,定量分析模型在 grounding rate 和 success rate 上的表现,从而诊断其视觉捷径与反事实失败的普遍程度。此外,该数据集可作为验证新提出方法有效性的平台,例如论文中提出的反事实动作引导技术,便是在此基准上展示了其提升语言条件化能力的普适性。在实际应用中,该数据集指导研究者关注模型在有限监督场景下的可靠性,为开发更忠实遵循用户意图的通用机器人智能体提供了关键的评估工具。
背景与挑战
背景概述
LIBERO-CF基准数据集由北卡罗来纳大学教堂山分校的研究团队于2026年提出,旨在系统评估视觉-语言-动作模型在反事实场景下的语言遵循能力。该数据集基于广泛使用的机器人操作基准LIBERO构建,通过为相同的场景布局分配替代的、视觉上可行但语言上不同的指令,创造了超过50个全新的反事实任务。其核心研究问题是揭示并量化VLAs因视觉捷径和模态不平衡而导致的‘反事实失败’现象,即模型倾向于执行训练中习得的场景特定行为,而非忠实遵循语言指令。这一基准的建立为深入理解VLAs的语言 grounding 可靠性提供了首个标准化测试平台,对推动具身智能向更安全、更可信的实际部署迈进具有关键影响。
当前挑战
LIBERO-CF数据集致力于解决的核心领域挑战是评估并缓解视觉-语言-动作模型中的‘反事实失败’。具体而言,当面对缺乏强场景监督的指令时,VLAs普遍存在忽视语言、过度依赖视觉线索(即‘视觉捷径’)执行训练常见行为的倾向,这严重损害了其作为通用机器人代理的可靠性与安全性。在构建过程中,研究团队面临多重挑战:首先,需在保持视觉合理性的前提下,系统性地为已知场景生成大量反事实指令,涵盖空间、物体、长时序和分布外泛化等多个维度,以构建全面且可控的评估套件。其次,需设计能够精确区分‘忠实遵循指令’与‘偏向执行训练任务’的量化指标(如 grounding rate),以可靠地揭示模型失败模式。此外,基准的构建还需克服机器人数据集中固有的任务特定性和视觉主导性所导致的数据与模态不平衡问题。
常用场景
经典使用场景
在机器人视觉-语言-动作模型的研究领域,LIBERO-CF数据集被广泛用于评估模型在反事实指令下的语言遵循能力。该数据集通过在相同的视觉场景布局中分配替代性的可行语言指令,构建了包括空间、物体、长时程和分布外任务在内的四大测试套件。研究者利用这一基准,系统性地检验模型是否能够克服视觉捷径的干扰,忠实执行与训练任务视觉相似但语义不同的新指令,从而深入揭示VLA模型在语言条件化方面的内在缺陷。
解决学术问题
LIBERO-CF数据集的核心贡献在于首次系统性地界定并量化了VLA模型中的反事实失败现象。它解决了长期以来因机器人数据集存在视觉主导性和模态不平衡所导致的学术难题,即模型倾向于依赖场景特定的视觉先验而忽视语言指令。该数据集通过精心设计的反事实任务,将语言遵循能力从任务执行成功率中剥离出来进行独立评估,为理解模型在多模态融合中的偏差提供了可衡量的科学工具,推动了机器人学习从感知驱动向语言驱动范式的理论转变。
实际应用
该数据集的实际价值体现在提升现实世界机器人系统的可靠性与安全性上。通过暴露并量化VLA模型在反事实场景下的失败模式,LIBERO-CF为开发更鲁棒的机器人策略提供了关键的评估标准。其揭示的视觉捷径问题直接关联到家庭服务、工业装配等场景中机器人误解人类指令的风险。基于该基准提出的反事实动作引导等方法,能够以即插即用的方式增强现有模型的指令遵循能力,无需重新训练或修改架构,为实际部署中的安全纠偏提供了高效解决方案。
数据集最近研究
最新研究方向
在视觉-语言-动作模型领域,LIBERO-CF数据集的推出标志着对模型语言遵循能力系统性评估的重要进展。该数据集通过构建反事实任务场景,揭示了现有VLA模型普遍存在的视觉捷径依赖问题,即模型倾向于忽略语言指令而执行训练中高频出现的视觉关联行为。前沿研究聚焦于开发无需改变模型架构的推理时校正方法,如反事实动作引导技术,通过双分支推断机制显式强化语言条件作用,从而提升模型在空间推理、目标识别及长时程任务中的鲁棒性。这一方向不仅推动了跨模态平衡理论的发展,也为机器人安全部署提供了关键性评估框架,正逐步成为具身智能领域的热点议题。
相关研究论文
  • 1
    When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs北卡罗来纳大学教堂山分校 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作