Robotic Manipulation Failure Datasets
收藏github2026-04-14 更新2026-04-18 收录
下载链接:
https://github.com/x1nyuzhou/Robo-Mani-Failure-Data
下载链接
链接失效反馈官方服务:
资源简介:
一个紧凑的开源数据集和基准测试集合,用于机器人操作失败检测、诊断和恢复。
A compact open-source dataset and benchmark suite for robot manipulation failure detection, diagnosis and recovery.
创建时间:
2026-04-14
原始信息汇总
数据集概述
基本信息
- 数据集名称:Robotic Manipulation Failure Datasets
- 项目地址:https://github.com/x1nyuzhou/Robo-Mani-Failure-Data
- 核心描述:一个用于机器人操作失败检测、诊断与恢复的开源数据集和基准测试的紧凑集合。
数据集范围
- 领域:专注于机器人操作失败,而非通用机器人数据集。
- 类型:包含开源数据集、基准测试或可复现的评估套件。
- 场景:涵盖真实世界、仿真和多模态设置。
包含的数据集列表
| 数据集名称 | 年份 | 发表会议/期刊 | 设置 | 模态 | 规模 | 关注点 | 链接 |
|---|---|---|---|---|---|---|---|
| ViFailback | 2026 | CVPR 2026 | 真实世界 | 视觉、语言、动作 | 5,202 条轨迹,58,128 个VQA对 | 利用视觉符号进行失败诊断与纠正 | 项目:https://x1nyuzhou.github.io/vifailback.github.io/ / 代码:https://github.com/x1nyuzhou/ViFailback / arXiv:https://arxiv.org/abs/2512.02787 / 数据:https://huggingface.co/datasets/sii-rhos-ai/ViFailback-Dataset |
| I-FailSense | 2026 | ICRA 2026 | 仿真基准 + 真实世界迁移 | 视觉序列、语言 | 34 个CALVIN任务;在79个RLBench任务上进行AHA评估 | 语义错位失败检测 | 项目:https://clemgris.github.io/I-FailSense/ / 代码:https://github.com/clemgris/I-FailSense / arXiv:https://arxiv.org/abs/2509.16072 / HF:https://huggingface.co/collections/ACIDE/failsense-datasets-and-benchmarks |
| AHA | 2025 | ICLR 2025 | 仿真 | 视觉、语言 | 49K+ 图像-指令对 | 检测并推理执行失败 | 项目:https://aha-vlm.github.io/ / 代码:https://github.com/NVlabs/AHA / arXiv:https://arxiv.org/abs/2410.00371 |
| FailCoT / Guardian | 2025 | CoRL 2025 Workshop | 仿真 + 真实 | 多视角视觉、结构化语言 | 30K+ 训练样本 | 基于思维链式监督的规划与执行失败推理 | 项目:https://www.di.ens.fr/willow/research/guardian/ / arXiv:https://arxiv.org/abs/2512.01946 / 数据:https://huggingface.co/collections/paulpacaud/robotic-failure-detection-dataset-and-model-guardian |
| RoboFAC | 2025 | arXiv 2025 | 仿真 + 真实 | 视频、语言、运动学 | 9,440 条错误轨迹,78,623 个QA对 | 细粒度失败分析与纠正 | 项目:https://mint-sjtu.github.io/RoboFAC.io/ / 代码:https://github.com/MINT-SJTU/RoboFAC / arXiv:https://arxiv.org/abs/2505.12224 / 数据:https://huggingface.co/datasets/MINT-SJTU/RoboFAC-dataset / 模型:https://huggingface.co/MINT-SJTU/RoboFAC-7B |
| UR5-Fail | 2025 | CoRL 2025 Workshop | 真实世界 | 多摄像头机器人观测 | 280 个测试样本,3个摄像头视角 | 分布外条件下的真实策略失败 | 项目:https://www.di.ens.fr/willow/research/guardian/ / arXiv:https://arxiv.org/abs/2512.01946 / 数据:https://huggingface.co/collections/paulpacaud/ur5-fail-robot-failure-detection-benchmark |
| Sentinel | 2024 | CoRL 2024 | 离线评估套件 | 视觉、策略轨迹 | 319 GB 测试套件 | 生成式策略的运行时监控 | 项目:https://sites.google.com/stanford.edu/sentinel / 代码:https://github.com/agiachris/sentinel / arXiv:https://arxiv.org/abs/2410.04640 |
| ARMBench | 2023 | ICRA 2023 | 工业真实世界 | RGB、深度、监控视频 | 19K+ 异常图像,4K+ 视频 | 仓库与物流失败检测 | 网站:https://www.armbench.com/ / 数据:https://www.armbench.com/data.html / arXiv:https://arxiv.org/abs/2303.16382 |
| RoboFail | 2023 | CoRL 2023 | 仿真 + 真实 | 视觉、语言 | 130 个失败案例,300 个QA对 | 基于经验总结的失败解释与纠正 | 项目:https://robot-reflect.github.io/ / 代码:https://github.com/real-stanford/reflect / arXiv:https://arxiv.org/abs/2306.15724 / 论文:https://proceedings.mlr.press/v229/liu23g/liu23g.pdf |
| FAILURE / FINO-Net | 2021 | IROS 2021 | 真实世界 | RGB、深度、音频 | 229 个片段 | 遮挡和接触不确定性下的多模态失败检测 | 代码:https://github.com/ardai/fino-net / 论文:https://ieeexplore.ieee.org/document/9636455/ |
搜集汇总
数据集介绍

构建方式
在机器人操作领域,失败检测与诊断的数据集构建通常采用多模态数据融合策略。以ViFailback为例,该数据集通过真实世界环境采集了5,202条操作轨迹,并精心标注了58,128个视觉问答对,旨在捕捉操作失败时的视觉符号与语言描述之间的关联。类似地,RoboFAC整合了仿真与真实场景,收集了9,440条错误轨迹和78,623个问答对,覆盖视频、语言及运动学数据,以支持细粒度失败分析。这些数据集普遍结合了仿真基准与真实世界迁移,如I-FailSense在CALVIN和RLBench任务上构建评估框架,确保数据的多样性与可扩展性。
特点
机器人操作失败数据集展现出鲜明的多模态与跨场景特性。ViFailback强调视觉符号与语言交互的融合,为失败诊断与纠正提供语义基础;RoboFAC则通过大规模轨迹与问答对,实现精细的错误分类与修正建议。数据集普遍支持仿真与真实环境的无缝衔接,如I-FailSense设计语义错位检测任务,促进模型在复杂场景中的泛化能力。此外,ARMBench聚焦工业仓储环境,提供海量异常图像与视频,凸显了实际应用中的鲁棒性需求。这些特点共同推动了失败分析向更智能、更全面的方向发展。
使用方法
使用这些数据集时,研究者可依据具体目标选择适配的基准。对于失败诊断任务,ViFailback的视觉问答对可用于训练多模态推理模型,评估其在符号理解上的表现;而RoboFAC的轨迹与问答数据则适合开发端到端的失败分析与纠正系统。在跨场景验证方面,I-FailSense的仿真基准支持语义错位检测,其真实世界迁移模块便于测试模型的实际适应性。数据集通常提供标准化评估套件,如Sentinel的运行时监控框架,允许对生成策略进行系统化测试。通过Hugging Face等平台获取数据后,用户可结合开源代码复现实验,推动机器人操作安全性的持续提升。
背景与挑战
背景概述
机器人操作失败数据集作为机器人学习领域的重要资源,其兴起源于对智能体在复杂物理交互中鲁棒性提升的迫切需求。自2021年起,诸如FAILURE/FINO-Net等早期工作开始系统性地收集真实世界中的操作失败案例,随后在2023至2026年间,由斯坦福大学、英伟达研究院、法国国家信息与自动化研究所等顶尖机构的研究团队相继推出了ARMBench、RoboFail、AHA、ViFailback等一系列数据集与基准测试。这些数据集的核心研究问题聚焦于机器人操作过程中的失败检测、诊断与恢复,旨在通过多模态数据(如视觉、语言、动作序列)构建能够理解、解释并纠正失败行为的智能系统。其对领域的影响力体现在推动了机器人从单纯的任务执行向具备自我反思与适应能力的方向演进,为构建更安全、可靠的自主机器人奠定了数据基础。
当前挑战
该领域数据集致力于解决机器人操作失败这一核心问题的挑战,主要体现在失败模式的极端多样性与语义理解的复杂性上。具体而言,挑战包括如何定义和标注细粒度的失败类别(如语义错位、执行偏差、意外接触),以及如何构建能够泛化至未见场景(OOD)的评估基准。在数据集构建过程中,研究者面临多重困难:在真实世界环境中,安全、可控地诱发并记录失败轨迹成本高昂且存在风险;在仿真环境中,则需克服模拟到真实(Sim2Real)的迁移鸿沟,确保数据的真实性与有效性。此外,多模态数据(如视频、语言指令、运动学)的同步采集、对齐与高质量标注,尤其是对失败原因进行因果推理的标注,构成了另一项严峻的技术与资源挑战。
常用场景
经典使用场景
在机器人操作领域,失败检测与诊断是提升系统鲁棒性的核心挑战。该数据集集合通过整合多模态数据,如视觉序列、语言指令与动作轨迹,为研究者提供了系统性的基准测试平台。经典使用场景聚焦于模拟与真实环境中的操作失败案例,例如抓取失误、路径规划偏差或语义对齐错误,支持开发算法以实时识别故障根源,并推动自动化纠正策略的演进。
解决学术问题
该数据集有效应对了机器人操作中因环境不确定性、感知误差或控制局限所引发的失败问题。它通过结构化标注与大规模样本,助力解决失败检测的泛化性、多模态信息融合以及跨领域迁移等学术难题。其意义在于构建了标准化评估框架,促进了故障推理模型的发展,为提升自主系统的安全性与可靠性奠定了数据基础。
衍生相关工作
围绕该数据集,已涌现一系列经典研究工作。例如,ViFailback专注于视觉符号引导的失败诊断与修正,AHA探索了视觉语言模型对执行失败的检测与推理,而RoboFAC则致力于细粒度失败分析与纠正。这些工作共同推动了失败感知、语义对齐及自主恢复等方向的技术进步,丰富了机器人学习领域的理论体系与应用范式。
以上内容由遇见数据集搜集并总结生成



