NuRisk

Name: NuRisk
Creator: 慕尼黑工业大学车辆系统教授职位, 慕尼黑机器人与机器智能研究所 (MIRMI)
Published: 2025-09-30 16:37:31
License: 暂无描述

arXiv2025-09-30 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/Yuan-avs/Nurisk

下载链接

链接失效反馈

官方服务：

资源简介：

NuRisk是一个用于自动驾驶中智能体级别风险评估的视觉问答(VQA)数据集，包含2.9K个场景和1.1M个智能体级别样本，基于nuScenes和Waymo的真实世界数据构建，并补充了来自CommonRoad模拟器的安全关键场景。数据集提供了基于鸟瞰图(BEV)的序列图像和定量的智能体级别风险注释，支持时空推理。该数据集旨在评估视觉语言模型(VLM)在时空风险推理和定量风险评估方面的能力，以解决自动驾驶中风险评估的挑战。

NuRisk is a visual question answering (VQA) dataset for agent-level risk assessment in autonomous driving. It contains 2.9 thousand scenarios and 1.1 million agent-level samples, constructed based on real-world data from nuScenes and Waymo, and supplemented with safety-critical scenarios from the CommonRoad simulator. The dataset provides bird's-eye view (BEV) based sequential images and quantitative agent-level risk annotations, supporting spatio-temporal reasoning. It aims to evaluate the capabilities of visual language models (VLMs) in spatio-temporal risk reasoning and quantitative risk assessment, so as to address the challenges of risk assessment in autonomous driving.

提供机构：

慕尼黑工业大学车辆系统教授职位, 慕尼黑机器人与机器智能研究所 (MIRMI)

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在自动驾驶风险评估领域，NuRisk数据集通过多源数据融合构建而成，整合了来自nuScenes和Waymo的真实驾驶场景以及CommonRoad模拟器生成的安全关键场景。构建过程采用三阶段流水线：首先从各数据源提取车辆轨迹和动态信息，随后生成鸟瞰图序列以保留时空上下文，最后基于物理模型计算每个交通参与者的定量风险指标，包括碰撞时间和距离等安全度量。这种结构化构建方式确保了数据在时序对齐和风险标注方面的一致性。

使用方法

作为视觉问答基准，NuRisk支持通过对话格式进行模型训练与评估。研究者可将连续鸟瞰图序列与自然语言查询结合，要求模型输出包含风险分数、时空轨迹和推理链的结构化响应。数据集兼容主流视觉语言模型训练框架，支持零样本推理、上下文提示和微调等多种应用范式。特别设计的链式思维标注有助于可解释性风险评估，为自动驾驶系统的安全验证提供透明化分析工具。

背景与挑战

背景概述

自动驾驶领域在感知与预测技术取得显著进展的同时，对动态风险推理的需求日益凸显。NuRisk数据集由慕尼黑工业大学自主车辆系统团队于2025年提出，聚焦于解决智能体级定量风险评估中的时空推理难题。该数据集整合了nuScenes、Waymo真实道路数据与CommonRoad模拟器的安全关键场景，包含2900个场景和110万个智能体样本，通过鸟瞰图序列与定量风险标注，为自动驾驶系统提供了从静态感知到动态演进风险分析的研究基础。

当前挑战

该数据集致力于突破视觉语言模型在自动驾驶风险评估中的两大挑战：在领域问题层面，需解决从定性判断到定量风险评估的跨越，要求模型具备时空推理能力以捕捉风险随时间的演化规律；在构建过程中，面临多源数据融合的复杂性，包括真实场景与模拟数据的时空对齐、物理风险指标的标准化计算，以及百万级样本的质控验证，这些技术难点共同构成了自动驾驶安全评估体系完善的核心障碍。

常用场景

经典使用场景

在自动驾驶风险评估领域，NuRisk数据集通过融合真实世界驾驶场景与合成安全关键事件，为视觉语言模型提供了时空推理能力的验证平台。该数据集以鸟瞰图序列呈现动态交通环境，结合定量风险标注，支撑模型对车辆轨迹演变和风险传播机制的分析。典型应用包括评估模型在复杂交互场景中对碰撞时间、安全距离等物理指标的推理精度，推动自动驾驶系统从静态感知向动态决策的跨越。

解决学术问题

NuRisk填补了现有自动驾驶数据集中在定量风险评估方面的空白，解决了视觉语言模型缺乏时空推理能力的核心难题。通过提供包含2900个场景、110万样本的标注数据，该数据集使研究者能够系统评估模型对安全指标（如TTC、DTC）的量化分析能力。其意义在于建立了首个融合多源真实数据与仿真关键场景的基准，为突破自动驾驶在边缘案例中的认知局限提供了关键基础设施。

实际应用

该数据集的实际价值体现在提升自动驾驶系统的安全决策能力。通过提供细粒度风险标注，可指导车辆在复杂交通场景中生成精准的避障策略，避免因保守决策导致的通行效率下降。在产业应用中，NuRisk支撑的模型优化能增强自动驾驶出租车、物流运输等场景的可靠性，特别是在处理突发切入、交叉路口冲突等高风险情境时提供量化决策依据。

数据集最近研究