AccidentBench

github2025-10-04 更新2025-10-09 收录

下载链接：

https://github.com/SafeRL-Lab/AccidentBench

下载链接

链接失效反馈

官方服务：

资源简介：

AccidentBench是一个用于车辆事故及更广泛领域的多模态理解和推理基准数据集，包含陆地、水域和空中三种空间设置，涵盖时间、空间和意图推理等多种推理任务。

AccidentBench is a benchmark dataset for multimodal understanding and reasoning in the context of vehicle accidents and a broader range of related fields. It includes three spatial settings: land, water, and air, and covers various reasoning tasks such as temporal, spatial, and intentional reasoning.

创建时间：

2025-09-27

原始信息汇总

AccidentBench 数据集概述

数据集基本信息

数据集名称: AccidentBench
核心功能: 评估车辆事故及更广泛场景中的多模态理解和推理能力
数据规模: 约2,000个视频和19,000个人工标注的问答对
样本集: 约4,000个示例（从完整数据集中随机选取）

数据特征

空间场景覆盖

陆地空间: 交通事故场景
水域空间: 水上场景
空中空间: 航空场景

推理类型

时序推理: 理解事件序列和随时间变化的运动
空间推理: 关注空间中的相对位置和方向
意图推理: 评估动态环境中目标导向行为和决策的理解

难度级别

困难级别: 原始设计任务
中等级别: 基于困难任务构建
简单级别: 基于困难任务构建

数据格式

JSON结构

json { "id": "唯一标识", "dataset": "子数据集文件名", "scene_name": "视频文件名", "reasoning_style": "推理类型", "question": "与场景相关的推理问题", "ground_truth": "正确答案键", "options": ["多个选择题选项"] }

视频特性

多种视频长度：短、中、长
不同类别和帧数
多样化的视频时长分布

标注质量

标注人员: 至少持有工程相关领域（如数学或计算机科学）硕士学位的受过高等教育的标注者
标注流程: 首先设计困难级别任务并标注每个问题的真实答案，然后基于这些构建中等和简单任务

评估基准

模型性能对比

在困难、中等和简单三个难度级别上评估了多个大型多模态模型的性能，包括：

GPT 4o
Gemini 系列
Claude 3.5
InternVL2.5
LLaVA 系列
Qwen2.5 VL

评估指标

总体平均分
时序推理得分
空间推理得分
意图推理得分

数据获取

主要来源: https://huggingface.co/datasets/Open-Space-Reasoning/Benchmark
备用下载: https://huggingface.co/datasets/Open-Space-Reasoning/M4R-zip

引用信息

bibtex @article{gu2025accidentbench, title={AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond}, author={Gu, Shangding and Wang, Xiaohan and Ying, Donghao and Zhao, Haoyu and Yang, Runing and Jin, Ming and Li, Boyi and Pavone, Marco and Yeung-Levy, Serena and Wang, Jun and others}, journal={arXiv preprint arXiv:2509.26636}, year={2025} }

搜集汇总

数据集介绍

构建方式

在自动驾驶与智能交通系统快速发展的背景下，AccidentBench通过精心设计的标注流程构建了大规模多模态基准数据集。该数据集汇集了约2000个视频片段与19000组人工标注的问答对，所有标注工作均由至少持有工程相关领域硕士学位的专业人员完成。构建过程中首先设计高难度任务并标注标准答案，随后基于这些任务衍生出中等与简单难度的题目，不同难度级别主要通过选项数量与类型进行区分，确保了任务复杂度的梯度分布。

使用方法

研究人员可通过Hugging Face平台直接获取数据集资源，支持git克隆或压缩包下载两种方式。使用过程中需配置相应的评估环境，通过修改任务配置文件指定具体的数据路径。评估脚本支持多种主流视觉语言模型，包括Qwen2.5-VL、LLaVA系列等，用户可根据需要调整模型参数与批处理大小。数据集采用标准JSON格式存储，每个样本包含问题、选项、正确答案等关键字段，便于研究者进行模型训练与性能评估。

背景与挑战

背景概述

随着自动驾驶和智能交通系统的迅猛发展，对多模态理解与推理能力的需求日益凸显。AccidentBench由SafeRL-Lab等研究机构于2025年推出，旨在构建一个涵盖陆地、水域和空域场景的基准数据集，核心研究问题聚焦于评估模型在复杂事故场景中的时空推理与意图理解能力。该数据集包含约2000段视频和19000组人工标注的问答对，通过引入高学历标注团队确保数据质量，为多模态人工智能模型在开放空间中的推理性能提供了标准化评估框架，显著推动了自动驾驶安全性和智能体决策研究的发展。

当前挑战

在解决领域问题方面，AccidentBench直面多模态推理中的三大核心挑战：时序推理要求模型精准捕捉动态事件序列，空间推理需解析复杂环境中的相对位置关系，意图推理则依赖对行为动机的深层推断。构建过程中，数据采集面临多场景覆盖与真实性的平衡难题，标注工作因涉及专业领域知识而极具复杂性，同时多难度层级的设计需确保逻辑一致性与评估有效性，这些因素共同构成了数据集开发的技术壁垒。

常用场景

解决学术问题

该数据集有效解决了多模态人工智能领域中的关键学术问题，特别是在开放空间环境下的深度推理能力评估方面。通过提供包含时空推理和意图推理的标准化测试框架，研究者能够系统性地分析模型在复杂动态场景中的认知局限。其重要意义在于建立了首个覆盖多领域交通事故场景的基准测试，为推进安全可靠的自动驾驶技术提供了理论基础和评估标准。

实际应用

在实际应用层面，AccidentBench为智能驾驶系统的安全验证提供了重要支撑。汽车制造商和科技公司可利用该数据集训练和测试自动驾驶算法对突发事故的响应能力。保险行业也能借助其中的场景数据进行风险评估模型优化，同时交通管理部门可通过分析数据集中的事故模式来改进道路安全设计，这些应用都体现了数据集在提升公共交通安全方面的实际价值。

数据集最近研究