VRU-Accident

Name: VRU-Accident
Creator: 美国中佛罗里达大学
Published: 2025-07-14 06:14:35
License: 暂无描述

arXiv2025-07-14 更新2025-07-16 收录

下载链接：

https://vru-accident.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

VRU-Accident是一个大规模的视觉-语言基准数据集，旨在评估多模态大型语言模型（MLLMs）在高风险交通场景中，特别是涉及脆弱道路用户（VRUs）的场景中的推理和描述能力。该数据集包含1000个真实世界的事故和近事故视频，这些视频被标注了6000个多项选择题问答对，涵盖六个安全关键类别（共有24000个候选选项和3400个独特答案选择），以及1000个密集的场景描述。VRU-Accident数据集的创建过程包括从网络资源中检索事故视频，并由人类专家手动筛选。对于每个视频，首先由人类专家为每个问题标注一组答案，然后VQA生成器生成三个反事实答案，同时使用密集描述生成器为每个视频生成一个密集的事故描述。所有标注均由人类专家验证后最终确定。该数据集的创建旨在解决自动驾驶系统中对脆弱道路用户安全性的挑战，并推动多模态语言模型在交通事故理解和推理方面的研究。

VRU-Accident is a large-scale vision-language benchmark dataset designed to evaluate the reasoning and description capabilities of multimodal large language models (MLLMs) in high-risk traffic scenarios, particularly those involving vulnerable road users (VRUs). This dataset contains 1,000 real-world accident and near-accident videos, annotated with 6,000 multiple-choice question-answer pairs spanning six safety-critical categories (with a total of 24,000 candidate options and 3,400 unique answer choices), as well as 1,000 dense scene descriptions. The creation of the VRU-Accident dataset involves retrieving accident videos from web resources and manually screening them by human experts. For each video, human experts first annotate a set of answers for each question, then the VQA generator generates three counterfactual answers, while a dense caption generator generates one dense accident description for each video. All annotations are finally finalized after being verified by human experts. This dataset is developed to address the challenges of vulnerable road user safety in autonomous driving systems and advance research on traffic accident understanding and reasoning for multimodal language models.

提供机构：

美国中佛罗里达大学

创建时间：

2025-07-14

原始信息汇总

VRU-Accident 数据集概述

数据集基本信息

数据集名称: VRU-Accident
研究团队: Younggun Kim, Ahmed S. Abdelrahman*, Mohamed Abdel-Aty (University of Central Florida)
对应作者: Ahmed S. Abdelrahman
数据集类型: 视觉-语言基准测试
应用领域: 自动驾驶、事故分析
数据内容: 涉及弱势道路使用者(VRUs)的真实交通事故视频

数据集特点

首创性: 首个专注于VRU相关交通事故的视觉语言基准测试
任务支持:
- 视频问答(Video Question Answering)
- 密集描述生成(Dense Captioning)
核心目标: 评估多模态大语言模型(MLLMs)在安全关键场景中的表现

数据规模与标注

视频数量: 1,000个真实行车记录仪事故视频
问答标注:
- 6,000个多选题问答对
- 覆盖6个安全关键类别
- 24,000个候选选项
- 3,400个唯一答案选项
描述标注: 1,000个密集场景描述

标注特性

细粒度分析: 捕捉事故的时空动态和因果语义
平衡设计: 答案选项分布均衡，减少位置偏差
挑战性干扰项: 干扰项与问题具有高语义相似性
丰富词汇: 各类别包含多样化的语义丰富词汇

评估发现

MLLMs表现:
- 在视觉基础属性上表现良好
- 在事故原因、类型和可预防性推理方面面临显著挑战
评估模型数量: 17个最先进的MLLMs

学术资源

论文状态: Coming Soon
代码状态: Coming Soon
arXiv状态: Coming Soon
BibTeX状态: Coming Soon

搜集汇总

数据集介绍

构建方式

VRU-Accident数据集通过半自动化的标注流程构建，包含1000个真实世界行车记录仪拍摄的交通事故视频。采用分层标注策略，首先由专家标注基础事实答案，随后通过VQA生成器创建包含正确答案和三个语义相关干扰项的候选集，确保每个问题的选项空间具有挑战性。同时，利用密集描述生成器为每个视频生成包含天气、道路配置、事故动态等要素的详细叙述，所有标注结果均经过人工验证以保证质量。

使用方法

VRU-Accident支持两种核心评估任务：视频问答（VQA）要求模型从四个候选答案中选择最佳选项，评估其对事故场景的分类和因果推理能力；密集描述生成任务则需模型输出包含时空动态的完整事故叙述。使用时需注意零样本评估设定，直接测试模型在未微调状态下的泛化性能。评估指标分别采用分类准确率（VQA）和SPICE、METEOR等语言生成指标（描述任务），基准测试中应保持提示词与原始论文的一致性以确保结果可比性。

背景与挑战

背景概述

VRU-Accident是由中佛罗里达大学的研究团队于2025年提出的首个专注于弱势道路使用者(VRU)事故场景理解的大规模视觉-语言基准数据集。该数据集包含1,000个真实世界行车记录仪事故视频，标注了6,000个多选问答对和1,000个密集场景描述，旨在评估多模态大语言模型(MLLM)在安全关键场景中的推理能力。数据集特别关注行人、自行车等VRU与车辆的碰撞场景，填补了现有基准在事故因果推理和预防措施分析方面的空白，为自动驾驶系统的安全感知研究提供了重要评估工具。

当前挑战

VRU-Accident面临的挑战主要体现在两个方面：领域问题方面，现有模型在事故原因推理、预防措施建议等高层次语义理解任务上表现欠佳，平均准确率较人类专家低30%以上；构建过程方面，数据标注需平衡语义多样性与安全相关性，特别是对动态碰撞过程、多因素事故因果关系的准确描述极具挑战性。此外，生成具有上下文合理性的干扰选项(24,000个)和保持密集描述(3,400个独特答案)的时空一致性也增加了数据集构建难度。

常用场景

经典使用场景

VRU-Accident数据集专为评估多模态大语言模型（MLLMs）在涉及弱势道路使用者（VRUs）的高风险交通场景中的推理和描述能力而设计。其经典使用场景包括视频问答（VQA）和密集描述生成任务，通过1,000个真实世界的事故视频和6,000个多选问答对，全面测试模型在复杂安全关键场景下的表现。

解决学术问题

该数据集填补了现有研究中缺乏针对VRU事故的标准化基准的空白，解决了多模态模型在事故因果推理、预防措施建议和场景动态理解等方面的评估难题。通过细粒度的注释和多样化的问答设计，VRU-Accident为提升模型在安全关键应用中的性能提供了重要工具。

实际应用

VRU-Accident的实际应用场景主要集中在自动驾驶系统的安全增强上。通过评估模型对事故原因、类型和可预防性的理解能力，该数据集有助于开发更可靠的自动驾驶感知系统，从而减少涉及行人和骑行者的交通事故，提升道路安全。

数据集最近研究