FailCoT Failure Reasoning Data

github2026-05-06 更新2026-05-09 收录

下载链接：

https://github.com/paulpacaud/Guardian-FailCot

下载链接

链接失效反馈

官方服务：

资源简介：

FailCoT是一个用于视觉语言机器人操作的多视角推理视觉语言模型的数据集，包含自动从成功的机器人演示中合成失败案例、生成规划和执行失败的结构化推理痕迹，以及在失败检测基准上对Guardian进行微调和评估。

FailCoT is a dataset for multi-view reasoning visual-language models designed for vision-language robotic manipulation tasks. It includes automatically synthesized failure cases from successful robotic demonstrations, structured reasoning traces generated for planning and execution failures, and supports the fine-tuning and evaluation of Guardian on failure detection benchmarks.

创建时间：

2026-05-05

原始信息汇总

数据集概述：FailCoT 故障推理数据与 Guardian VLM 故障检测器

数据集简介

FailCoT 是一个面向视觉-语言机器人操作任务的跨环境故障推理数据集，配套 Guardian 多视图推理视觉-语言模型，用于机器人操作中的统一计划与执行验证。

数据集内容

1. 故障数据生成

仿真环境 (RLBench)：通过 RFailureForge/pipeline/ 管线自动从成功演示中合成故障。
真实机器人 (BridgeData V2)：通过 RFailureForge/failBridgeDataV2/ 管线离线生成故障数据。
两种管线的规划故障由同一脚本 RFailureForge/pipeline/s5b_add_planning_failures/build_planning_failures.py 生成。

2. 结构化推理轨迹

包含规划故障和执行故障的结构化推理过程。
支持思考模式（先输出推理链再给出答案）和直接回答模式。

3. 数据集格式

数据集存放于 Hugging Face 上的 Guardian 集合中，每个数据集包含以下文件：

metadata_*.jsonl：元数据文件
internVL_dataset_*.jsonl：InternVL 格式数据集
records/：记录文件夹

数据集规模与组成

子数据集	来源	用途
`rlbenchfail_train_dataset`	RLBench 仿真	训练
`bdv2fail_train_dataset`	BridgeData V2 真实机器人	训练
`ur5fail_test_dataset`	UR5-Fail	OOD 评估
`robofail_dataset`	RoboFail	OOD 评估
`robovqa_dataset`	RoboVQA	OOD 评估

数据集用途

故障检测训练：用于微调 Guardian 视觉-语言模型，实现计划验证和执行验证。
评估基准：提供三个真实机器人 OOD（分布外）评估基准：
- UR5-Fail 适配版本
- RoboFail 适配版本
- RoboVQA 适配版本

数据获取

数据集发布在 Hugging Face 上：

完整数据集集合：https://huggingface.co/collections/paulpacaud/robotic-failure-detection-dataset-and-model-guardian
OOD 评估数据集：https://huggingface.co/datasets/paulpacaud/Guardian-FailCoT-OOD-datasets

引用信息

如果您使用本数据集，请引用：

bibtex @misc{pacaud2026guardian_failcot, title={Scaling Cross-Environment Failure Reasoning Data for Vision-Language Robotic Manipulation}, author={Paul Pacaud and Ricardo Garcia and Shizhe Chen and Cordelia Schmid}, year={2026}, eprint={2512.01946}, archivePrefix={arXiv}, primaryClass={cs.RO} }

搜集汇总

数据集介绍

构建方式

FailCoT数据集的构建依托于跨环境自动故障合成技术，从机器人成功演示轨迹中逆向生成失败案例。具体而言，研究团队设计了双通道生成管线：其一基于RLBench仿真环境，通过场景干预策略模拟规划与执行阶段的典型失误；其二源自BridgeData V2真实机器人数据，采用离线故障注入方法生成分布外样本。两条管线均共享统一的规划故障生成脚本，确保数据集在不同物理形态和任务场景下保持失败模式的多样性。

特点

该数据集的核心特色在于其结构化的故障推理标注机制。每条失败案例均附有包含推理链（thinking trace）的元数据，清晰区分规划阶段错误（如目标位置误判）与执行阶段错误（如抓取姿态偏差）。数据集覆盖仿真与真实双领域，尤其包含由UR5-Fail、RoboFail及RoboVQA改编的分布外评测基准，可有力检验模型的跨环境泛化能力。此外，多视角观测数据的融入增强了故障检测的鲁棒性。

使用方法

用户可通过Hugging Face平台直接下载预构建的FailCoT数据集及Guardian模型检查点。数据集需按指定目录结构存放于./data/failure_forge/data/路径下，随后利用评估脚本在规划验证与执行验证两种任务模式下运行离线VQA评测。支持思考型（thinking）与速答型（vanilla）两种推理模式，分别适配高精度与低延迟场景。用户亦可参照微调指南，在自有数据上对Guardian模型进行参数优化。

背景与挑战

背景概述

在机器人操作领域，视觉-语言模型（VLM）正逐渐成为连接感知与执行的核心纽带。然而，现有系统在复杂动态环境中常因规划错误或执行偏差导致任务失败，亟需一种能够系统化检测并推理失败原因的机制。在此背景下，由来自INRIA、Willow团队及Google DeepMind的Paul Pacaud、Ricardo Garcia、Shizhe Chen与Cordelia Schmid等研究者于2025年联合推出了Guardian框架及其配套的FailCoT数据集。该数据集聚焦于跨环境失败推理数据的规模化生成与利用，旨在通过构建结构化推理轨迹，使VLM能够同时验证机器人操作的规划合理性及执行正确性。这项工作不仅拓展了失败检测的研究边界，更为机器人安全操作提供了可解释的验证范式，推动了多模态感知与操作决策的深度融合。

当前挑战

FailCoT数据集及其Guardian检测框架所面临的挑战主要分为两个层面。在领域问题层面，现有机器人失败检测方法往往局限于单一故障类型（如仅检测执行错误），缺乏对规划错误与执行错误进行统一建模与推理的能力，且难以在跨环境场景下保持泛化性。在数据集构建层面，大规模结构化失败数据的获取极为困难：真实机器人环境中的失败事件稀疏且成本高昂，而直接从人类演示中采集失败样本几乎不可行。为此，研究团队提出基于成功演示自动合成失败实例的策略，并设计了一套包含仿真环境（RLBench）与真实机器人数据（BridgeData V2）的生成管线，以克服数据稀缺与场景多样性的双重障碍。

常用场景

经典使用场景

在机器人操控领域，视觉-语言模型（VLM）常被用于高层次的语义理解，但将二者深度融合以完成规划与执行的双重验证仍是一项挑战。FailCoT数据集专为训练此类多模态推理模型而生，其经典使用场景是作为Guardian视觉-语言模型训练与评估的核心数据源。研究者利用该数据集微调模型，使其能够从单一视角或多视角的观测图像中，精准识别机器人操作过程中的规划失误与执行错误，并生成结构化的推理链路。这一场景不仅验证了模型在跨环境泛化能力上的突破，更推动了机器人智能体从“感知-行动”闭环向“感知-推理-验证”闭环的演进。

实际应用

在实际工业与家庭服务场景中，机器人作业的可靠性直接决定了其部署价值。FailCoT数据集驱动的Guardian模型可被集成至实时机器人操控系统中，例如在装配线上通过多摄像头观测判断机械臂的抓取动作是否偏离预定轨迹，或在家庭服务场景中通过对比操作前后的场景图像检测物体是否被正确放置。其轻量化变体（guardian-vanilla）适用于边缘设备上的快速故障筛查，而高精度版本（guardian-thinking）则适合需要深度审计的关键工序。此外，该数据集的生成流程可直接迁移至用户自有环境，使机器人厂商能针对特定操作任务自主构建故障检测器，大幅降低了从实验室原型到量产系统的风险管控成本。

衍生相关工作

FailCoT数据集及Guardian模型为该领域催生了多条富有启发性的研究脉络。其一是基于结构化失败推理链的探索性工作，研究者借鉴FailCoT中规划失败与执行失败的层级标注思想，尝试将故障推理引入人机交互中的可解释性反馈生成，使机器人不仅能报告错误还能给出修正建议。其二是该数据集的自动合成方法论启发了许多后续工作，例如利用扩散模型或大型语言模型生成更逼真的失败场景，从而扩充其他难以采集的机器人失误类型。其三是Guardian的多视图融合机制被多个团队复现并拓展至灵巧手操作与足式机器人运动规划中的异常检测，证明了该框架在更广义的机器人故障诊断任务中的普适性价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集