five

Fail2Drive

收藏
arXiv2026-04-10 更新2026-04-11 收录
下载链接:
https://github.com/autonomousvision/fail2drive
下载链接
链接失效反馈
官方服务:
资源简介:
Fail2Drive是由蒂宾根大学团队推出的首个CARLA仿真环境闭环驾驶泛化基准数据集,包含200条精心设计的测试路线和17种新型场景类别。该数据集通过配对路线设计(100对分布内/泛化路线),量化评估自动驾驶模型在视觉外观、布局、行为及鲁棒性等四类分布偏移下的性能退化,平均成功率下降达22.8%。数据采集基于CARLA 0.9.15的100平方公里虚拟城镇环境,涵盖居民区、工业区等多样化道路场景,每条路线平均长度219米。该数据集旨在解决现有基准测试过度依赖训练场景复用的问题,为自动驾驶系统在长尾场景中的真实泛化能力提供科学评估框架。

Fail2Drive is the first closed-loop driving generalization benchmark dataset in the CARLA simulation environment, developed by the research team from the University of Tübingen. It includes 200 meticulously curated test routes and 17 novel scenario categories. Through a paired route design (100 pairs of in-distribution and generalization routes), this dataset enables quantitative assessment of performance degradation of autonomous driving models under four categories of distribution shifts, namely visual appearance, layout, behavior, and robustness, with an average success rate reduction of up to 22.8%. Data was collected in a 100-square-kilometer virtual town environment powered by CARLA 0.9.15, covering diverse road scenarios such as residential areas and industrial zones, with an average route length of 219 meters per test route. This dataset aims to address the limitation of existing benchmark tests that overly rely on the reuse of training scenarios, and provides a rigorous scientific evaluation framework for measuring the real-world generalization capability of autonomous driving systems in long-tail scenarios.
提供机构:
蒂宾根大学; 蒂宾根人工智能中心
创建时间:
2026-04-10
原始信息汇总

Fail2Drive 数据集概述

数据集简介

Fail2Drive 是首个 CARLA v2 基准测试,旨在测试在真正未见过的长尾场景下的闭环驾驶泛化能力。通过将每个偏移路线与一个分布内参考场景配对,它揭示了当前最先进驾驶模型中大量隐藏的故障模式。

核心特点

  • 评估场景:包含 17 个未见过的场景,用于评估真实泛化能力。
  • 新颖资产:包含 30 个新颖资产,包括动物、视觉噪声和对抗性障碍物。
  • 配对路线设计:支持量化泛化差距。
  • 路线规模:包含 100 对路线,涵盖多样化环境和配置。
  • 工具箱:提供用于创建自定义障碍物和路线的工具箱。

获取方式

  • 下载地址:https://huggingface.co/datasets/SimonGer/Fail2Drive
  • 项目主页:https://simonger.github.io/fail2drive/
  • 论文:https://arxiv.org/pdf/2604.08535

评估规则

  1. 禁止在 Fail2Drive 场景上训练:模型不得使用 Fail2Drive 中引入的路线、场景定义或资产进行训练或微调。该基准严格作为保留测试集。
  2. 允许外部预训练:允许在大型真实世界数据集、互联网规模多模态语料库、基础模型或 VLM/LLM 骨干网络上进行预训练。
  3. 排行榜提交:鼓励用户通过官方排行榜仓库提交最终分数。

相关资源

  • 排行榜仓库:https://github.com/SimonGer/fail2drive_leaderboard
  • 场景中心:https://github.com/SimonGer/fail2drive_scenario_hub
  • Discord 社区:https://discord.gg/HZ83Em6kyZ
搜集汇总
数据集介绍
main_image_url
构建方式
在自动驾驶领域,泛化能力的评估长期面临分布偏移的挑战。Fail2Drive基准通过精心设计的配对路线架构,在CARLA仿真平台中构建了200条评估路线,涵盖17种新颖场景类别,包括外观、布局、行为及鲁棒性四大泛化维度。每条泛化路线均与一条分布内路线精确匹配,确保地理位置与交通条件一致,仅针对目标偏移进行变量调整。这种配对设计有效隔离了失败因果因素,将定性故障转化为可量化的泛化差距度量,为闭环驾驶系统的稳健性评估提供了可控且可复现的实验框架。
特点
Fail2Drive的核心特点在于其系统化的泛化测试体系与深度的诊断能力。该数据集首次在CARLA中引入了真正未见的长尾场景,通过视觉泛化、行为泛化及鲁棒性等多类别场景,全面探测驾驶模型在分布偏移下的脆弱性。其配对路线机制不仅量化性能下降,更能揭示模型是否依赖数据集特定模式或记忆性捷径。此外,数据集附带的开源工具箱支持用户自定义场景与资产,并集成特权专家策略进行可解性验证,极大促进了新场景的创建与基准扩展,推动了自动驾驶泛化研究的可重复性与社区协作。
使用方法
使用Fail2Drive进行评估时,需遵循严格的基准规则以确保公平性。模型不得在任何训练或微调阶段使用该基准引入的路由、场景定义或资产,仅作为保留测试集。允许利用大规模真实世界数据集或基础模型进行外部预训练,但需避免针对基准场景的过拟合。用户可通过公开评估仓库提交最终分数,以参与排行榜比较。评估时采用驾驶分数与成功率指标,并计算配对路线间的相对性能差异,从而精确度量泛化差距。该基准与现有驾驶栈完全兼容,无需架构变更,便于快速集成与系统性压力测试。
背景与挑战
背景概述
自动驾驶领域在从模块化架构向端到端及视觉语言动作模型演进的过程中,泛化能力不足成为制约闭环系统发展的核心瓶颈。Fail2Drive基准由德国图宾根大学及图宾根人工智能中心的研究团队于2026年提出,旨在填补现有仿真测试中真实分布外泛化评估的空白。该数据集在CARLA仿真平台上构建了首个配对路线评估框架,包含200条路线与17类新颖场景,覆盖外观、布局、行为及鲁棒性四大分布偏移类型。通过将每条泛化路线与域内配对路线精确匹配,Fail2Drive能够将定性失效转化为可量化的泛化差距度量,为系统化评估驾驶模型的本质概念理解能力提供了可复现的基础设施。
当前挑战
Fail2Drive致力于解决自动驾驶闭环系统在长尾场景下的泛化评估难题,其核心挑战在于如何准确衡量模型对未见分布偏移的适应能力,而非对训练场景的简单记忆。构建过程中的主要挑战包括:设计具有因果隔离性的配对路线以消除混杂变量影响;创建涵盖视觉、几何与行为多维度的新型场景类别,确保其既具挑战性又可通过专家策略验证可解性;开发可扩展的工具链以降低场景创作与基准扩展的工程开销,同时维持与现有驾驶框架的完全兼容性。这些挑战共同指向对驾驶智能体是否真正掌握可迁移驾驶概念的深度检验。
常用场景
经典使用场景
在自动驾驶领域,评估模型在分布偏移下的闭环泛化能力是验证其鲁棒性的核心挑战。Fail2Drive作为首个在CARLA仿真环境中设计的配对路线基准,其经典使用场景在于系统性地衡量驾驶模型在真正未见的长尾场景中的性能退化。该数据集通过构建200条路线和17种新颖场景类别,覆盖了外观、布局、行为和鲁棒性等多种分布偏移,为研究者提供了量化泛化差距的标准化测试平台。其配对评估设计将每条泛化路线与一条分布内路线精确匹配,从而在固定交通配置和道路几何条件下,隔离特定偏移对驾驶决策的因果影响,使得性能差异能够直接反映模型对结构变化的敏感性。
解决学术问题
Fail2Drive主要解决了自动驾驶研究中模型过拟合与泛化能力评估不足的学术问题。现有基准通常在训练和测试中复用相同场景,导致模型成功可能源于对仿真器特定模式的记忆,而非学习到可迁移的驾驶概念。该数据集通过引入未见资产、非常规几何布局和稀有行为模式,暴露了当前端到端驾驶模型对CARLA特定捷径的依赖,例如仅对熟悉的障碍物模板触发避让行为,或无法理解自由空间与占据空间的基本概念。其意义在于将定性的失败案例转化为可量化的诊断指标,揭示了模型在感知、规划和行为生成各环节的脆弱性,为驱动泛化研究提供了可复现的评估基础。
衍生相关工作
Fail2Drive的发布催生了一系列关注驾驶模型泛化与鲁棒性的衍生研究。其配对路线设计和量化泛化差距的方法论,为后续基准构建提供了新范式,激励社区超越绝对性能分数,转而关注模型在分布偏移下的相对退化。相关工作可能围绕扩展其场景库,例如纳入更极端的天气变化、传感器故障模拟或复杂多智能体交互。同时,该数据集揭示的失败模式,如TransFuser++忽略LiDAR可见障碍物、SimLingo在语言-动作对齐上的过拟合,直接推动了针对多模态融合鲁棒性、视觉语言模型 grounding 能力以及可解释 fallback 行为生成的新研究方向。其开源工具箱也降低了创建可控分布偏移场景的工程门槛,促进了更广泛、更深入的驾驶泛化研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作