rlbenchfail_val_dataset

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/paulpacaud/rlbenchfail_val_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Guardian: RLBench-Fail 数据集是 Guardian 项目的一部分，旨在通过视觉语言模型（VLMs）检测机器人规划和执行错误。该数据集包含在 RLBench 模拟器中生成的带注释的机器人操作失败数据，用于训练和评估视觉语言模型在失败检测任务中的表现。数据集通过自动化流程产生多样化的规划失败和执行失败，并附有细粒度的失败类别和逐步推理痕迹。RLBench-Fail 包含来自 RLBench-18Task 和 GemBench 基准的 52 个任务，每个任务的成功脚本轨迹通过不同对象放置生成，并按照 3D-LOTUS++ 分解为子任务。执行失败通过在线扰动生成，规划失败则通过 LLM 和基于规则的方法生成。数据集包含丰富的元数据文件和适用于 InternVL 风格模型直接微调的文件格式。数据集适用于执行验证和规划验证任务，支持多视角图像输入和自然语言任务指令。

创建时间：

2026-02-04

搜集汇总

数据集介绍

构建方式

在机器人操作领域，RLBench-Fail数据集通过系统化的仿真流程构建而成。该数据集基于RLBench模拟器，覆盖了52个任务，这些任务源自RLBench-18Task和GemBench基准。构建过程中，首先生成多样化的成功脚本轨迹，并依据3D-LOTUS++框架将其分解为子任务。执行失败样本通过在线扰动生成，即在模拟器中随机选择子任务并应用四种失败模式进行修改，例如夹爪未闭合或操作对象错误。规划失败样本则通过大型语言模型对地面真实计划进行细微扰动，或采用基于规则的方法引入结构性错误，如缺失子任务或顺序错误。所有样本均通过InternVL3-38B模型自动生成链式思维推理轨迹，验证集和测试集包含未见过的任务与环境，以评估模型的泛化能力。

使用方法

为有效利用该数据集进行模型训练与评估，研究者可依据不同需求选择相应的数据格式。对于通用性分析或自定义模型训练，可加载`metadata_execution.jsonl`或`metadata_planning.jsonl`文件，这些文件以JSON行格式存储，每行包含图像路径、任务指令、失败类别及奖励信号等完整元数据，便于直接读取图像并进行标签处理。若旨在微调InternVL等视觉语言模型，则应使用`internVL_dataset_*`系列文件，这些文件已预处理为多轮对话格式，包含图像路径列表及结构化的人类与助手对话，其中“思考”变体还融入了链式推理步骤。数据加载后，用户可构建数据管道，将图像与文本输入结合，训练模型执行二元分类及细粒度失败类别预测，从而推动机器人操作中规划与执行错误的自动检测技术发展。

背景与挑战

背景概述

在机器人操作与视觉语言模型交叉领域，对智能体执行与规划错误的自动检测是提升系统可靠性的核心挑战。RLBench-Fail数据集作为Guardian项目的重要组成部分，由Paul Pacaud等研究人员于2025年构建，依托RLBench仿真平台生成。该数据集聚焦于机器人操作任务中的失败检测问题，通过程序化扰动成功轨迹，系统性地生成了涵盖52种任务的规划与执行失败样本，并辅以细粒度分类与思维链推理标注。其构建旨在为视觉语言模型提供高质量的监督数据，推动机器人故障诊断与自主纠错能力的发展，对仿真到现实的迁移学习及具身智能的稳健性研究具有显著影响力。

当前挑战

该数据集致力于解决机器人操作中规划与执行验证的复杂挑战，其核心问题在于如何让模型从多视角视觉序列与文本指令中精准识别并归类细微的操作异常。具体挑战包括：在领域层面，模型需克服场景多样性、物体遮挡及动作时序依赖带来的歧义性，实现跨任务与环境的泛化识别；在构建层面，研究者面临如何通过自动化流程在仿真中生成高保真且多样化的失败模式，同时确保标注的因果一致性与逻辑完备性，并协调大规模多模态数据（如图像、文本、轨迹）的结构化整合与高效存储。

常用场景

经典使用场景

在机器人操作与视觉语言模型交叉领域，RLBench-Fail数据集为评估和训练模型在机器人任务失败检测方面的能力提供了标准化基准。其经典使用场景集中于执行验证与规划验证两大任务：给定多视角图像序列与任务指令，模型需判断子任务执行的成功与否并归类具体失败模式；或基于初始场景图像与拟议计划，评估计划逻辑的正确性并识别错误类别。该场景通过模拟环境中程序化生成的多样化失败样本，系统性地检验模型对机器人操作中常见失误的感知与推理能力。

解决学术问题

该数据集针对机器人学中自主系统可靠性评估的核心挑战，解决了以往缺乏大规模、细粒度标注的机器人操作失败数据的问题。通过提供涵盖52种任务的规划与执行失败样本，并附有链式思维推理轨迹，它支持对视觉语言模型在复杂多模态场景下的故障诊断能力进行定量研究。其意义在于建立了连接仿真环境与真实世界失败模式的桥梁，促进了模型在未知任务与环境中的泛化性能分析，为提升机器人操作的安全性与鲁棒性提供了关键数据支撑。

实际应用

在实际机器人部署中，RLBench-Fail数据集可直接用于开发智能监控与诊断系统。例如，在工业装配或家庭服务机器人场景中，基于该数据集训练的视觉语言模型能够实时分析摄像头捕捉的操作序列，自动检测抓取不准、对象误操作或计划逻辑错误等故障，并及时触发纠正措施或报警。这种能力显著降低了机器人因累积错误而导致任务失败的风险，提升了自动化系统的运行效率与安全性，为机器人从受控环境走向动态复杂场景提供了关键的技术验证基础。

数据集最近研究