AccidentBench
收藏arXiv2025-10-01 更新2025-10-02 收录
下载链接:
https://www.youtube.com/watch?v=i6CrbqeksJ8 https://www.youtube.com/watch?v=k5yvzTwU8K8 https://www.youtube.com/watch?v=k5yvzTwU8K8
下载链接
链接失效反馈官方服务:
资源简介:
AccidentBench是一个大规模的基准数据集,旨在评估多模态模型在车辆事故和其他安全关键领域的理解和推理能力。该数据集包含约2000个视频和超过19000个人工标注的问答对,涵盖了多种视频长度和难度级别。AccidentBench的设计旨在揭示当前AI系统在开放空间领域的理解和推理能力的弱点,并推动更安全、更可靠的的多模态模型的发展。
AccidentBench is a large-scale benchmark dataset designed to evaluate the comprehension and reasoning capabilities of multimodal models in the context of vehicle accidents and other safety-critical domains. This dataset includes approximately 2,000 videos and over 19,000 manually annotated question-answer pairs, covering a diverse range of video durations and difficulty levels. The development of AccidentBench aims to uncover the limitations of current AI systems in terms of their comprehension and reasoning within open-domain scenarios, and to advance the development of safer and more reliable multimodal models.
提供机构:
加州大学伯克利分校、斯坦福大学、伦敦大学学院、弗吉尼亚理工大学、英伟达公司
创建时间:
2025-10-01
搜集汇总
数据集介绍

构建方式
在自动驾驶与安全关键系统快速发展的背景下,AccidentBench通过整合多源真实世界视频数据构建而成。该数据集从公开平台采集了约2000段视频,涵盖陆地交通事故(83%)、航空导航(10.2%)与水上航行(6.8%)三大安全关键领域,并由专业标注团队针对每段视频设计了时序理解、空间推理与意图推断三类任务。通过分层标注策略,首先构建需要精确匹配的困难级任务,继而衍生出区间选择的中等与简单级任务,最终形成超过1.9万个人工标注的问答对,确保了数据在场景多样性与任务复杂性上的平衡。
特点
该数据集最显著的特点是构建了覆盖多维推理能力的评估体系。其任务设计深度融合了物理世界的动态特性,通过短中长三种视频时长与易中难三级难度组合,系统检验模型在时序因果关系追踪、动态空间关系理解以及智能体意图推断等方面的能力。特别值得关注的是,数据集中包含大量高风险场景下的反事实推理与策略分析任务,例如车辆碰撞规避路径规划、船舶航行决策等,为评估模型在复杂安全关键环境中的推理鲁棒性提供了独特价值。
使用方法
研究者可通过标准化评估流程使用该数据集,首先加载经过统一预处理的视频与对应问答对,按照设定的三种难度级别与三种推理类型进行分类测试。评估时需注意不同任务形式的特性:困难级任务要求模型从精细离散选项中选择精确答案,而中易级任务则采用区间选择形式降低粒度。建议结合多维度评估指标,特别关注模型在长视频与复杂意图推理任务上的表现,这些环节最能暴露现有多模态模型在安全关键场景中的认知局限。数据集支持批量与单样本测试模式,适配从基座模型到专用系统的不同评估需求。
背景与挑战
背景概述
随着人工智能技术的飞速发展,多模态模型在视觉、语言和视频领域展现出卓越能力,但在自动驾驶、机器人技术等安全关键场景中的部署仍面临严峻挑战。AccidentBench由加州大学伯克利分校、斯坦福大学等机构的研究团队于2025年联合创建,旨在构建一个统一评估平台,系统检验模型在车辆事故及航空、水域等开放空间环境中的理解与推理能力。该数据集包含约2000段视频和19000余个人工标注的问答对,覆盖短、中、长三种视频时长及易、中、难三级任务难度,通过时空推理、意图理解等核心维度推动安全关键领域多模态模型的可靠发展。
当前挑战
该数据集致力于解决安全关键场景中多模态理解的三大核心挑战:在时空动态推理方面,模型需精准追踪长视频中的事件因果关系与多智能体运动轨迹;在空间关系建模中,必须解析复杂环境下的相对位置与导航方向;在意图推断层面,则要求理解智能体的决策逻辑并应对反事实推理。数据构建过程中,研究团队需克服真实场景视频的异构性,通过人工标注确保时空与意图标签的物理一致性,同时平衡陆地、航空、水域三大领域的数据分布,以建立具有物理 grounded 特性的评估基准。
常用场景
经典使用场景
在自动驾驶与安全关键系统研究中,AccidentBench作为多模态理解基准,广泛应用于评估模型对车辆事故场景的动态解析能力。该数据集通过整合陆地交通事故、空中导航及水域航行等多领域视频,系统检验模型在时空推理、意图推断等维度的表现,为复杂环境下的智能决策提供标准化测试平台。
解决学术问题
该数据集有效解决了多模态模型在安全关键场景中时空因果推理薄弱的核心问题。通过设计分层难度任务,揭示了现有模型在长视频序列理解、动态空间关系建模等方面的显著缺陷,推动了物理 grounded 推理、多智能体交互等研究方向的发展,为构建可靠的实际应用系统奠定理论基础。
衍生相关工作
基于该数据集的研究催生了多项创新工作,如DriveLM对驾驶场景的语言-视觉联合建模、MVBench的时序任务扩展等。这些衍生研究深化了对多模态推理范式的探索,促进了安全感知、跨域迁移等技术的突破,形成以事故分析为核心的技术生态体系。
以上内容由遇见数据集搜集并总结生成



