CrashSight

Name: CrashSight
Creator: 威斯康星大学麦迪逊分校; 怀俄明大学; 哥伦比亚大学
Published: 2026-04-10 22:52:27
License: 暂无描述

arXiv2026-04-10 更新2026-04-11 收录

下载链接：

https://mcgrche.github.io/crashsight/

下载链接

链接失效反馈

官方服务：

资源简介：

CrashSight是由威斯康星大学麦迪逊分校等机构联合构建的大规模路侧摄像头交通事故基准数据集，包含250个真实碰撞视频及13K带阶段标注的多选题问答对。数据集通过四阶段标注流程（预碰撞、碰撞动态、事后结果、潜在原因）构建时空语义结构，覆盖场景识别、责任判定等7类认知任务，支持对视觉语言模型在安全关键场景中的因果推理能力评估。其核心价值在于填补了基础设施视角下交通事故理解的数据空白，为车路协同自动驾驶的感知算法开发提供标准化测试平台。

提供机构：

威斯康星大学麦迪逊分校; 怀俄明大学; 哥伦比亚大学

创建时间：

2026-04-10

原始信息汇总

CrashSight 数据集概述

数据集基本信息

数据集名称：CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning
发布信息：CVPR 2026 Workshop DriveX · Archival Track · Poster
作者：Rui Gan1, Junyi Ma1, Pei Li2, Xingyou Yang1, Kai Chen3, Sikai Chen1, Bin Ran1
机构：1University of Wisconsin–Madison, 2University of Wyoming, 3Columbia University
相关资源：arXiv, Code

数据集简介

核心目标：为合作自动驾驶提供从基础设施视角（路边摄像头）进行交通场景理解的评估基准，弥补现有基准主要关注自车视角的不足。
数据内容：包含 250个真实世界的交通事故视频，并标注了 13,016个多项选择题-答案对。
标注框架：采用两层级、七类别的分类法组织问答对。
- 第一层级（事故理解）：评估场景背景、涉及方和事故后结果的视觉基础。
- 第二层级（事故推理）：探究更高层次的推理，包括事故机制、因果归因、时间进程和事故后结果。

数据集亮点

首个基础设施侧的事故视觉问答基准：包含250个专家标注的监控视频片段，具有阶段感知的密集描述和覆盖7个类别的13K多项选择题-答案对。
四阶段标注流程：VLM辅助起草 → 人类专家细化 → LLM驱动的VQA生成 → 验证与增强。
微调带来显著提升：领域特定微调带来高达+16.1%的平均准确率提升；一个30亿参数的微调模型超越了所有80亿参数的零样本基线模型。
系统化的错误分类：通过转变分析，将持续性失败归因于视觉令牌预算、冻结的编码器和预训练分布不匹配。

数据集统计

问答对总数：13,016对。
答案位置分布：经过选项打乱后，答案位置分布大致均匀（23.3%–27.8%），消除了位置偏差。
最大问题类别：“涉及方”类别占比28.0%，反映了实体识别的复杂性。
主要事故类型：侧面碰撞和T型碰撞是最常见的事故类型。

关键实验结果

评估模型：在四个模型系列中评估了8种VLM配置。
最佳零样本模型：InternVL3-8B，平均准确率为68.7%。
最佳微调模型：Qwen2.5-VL (FT) 7B，平均准确率为76.4%。
人类专家表现：平均准确率为94.7%。
人机差距：存在18.3个百分点的持续性人机差距，主要集中在“涉及方”和“事故机制”等视觉要求高的类别。

定性分析

主要失败模式：确定了两种微调无法解决的主要持续性失败模式。
1. 时间推理失败：当稀疏的均匀帧采样遗漏了短暂但具有因果决定性的碰撞前交互时，导致事件重建不完整。
2. 空间基础失败：当有限的像素分辨率和冻结的视觉编码器阻碍了模型在倾斜监控视角下区分细粒度实体细节时发生。

引用格式

@inproceedings{gan2026crashsight, title={CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning}, author={Gan, Rui and Ma, Junyi and Li, Pei and Yang, Xingyou and Chen, Kai and Chen, Sikai and Ran, Bin}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在智能交通系统与协同自动驾驶的演进中，对交通事故的精准理解成为保障安全的关键。CrashSight数据集的构建遵循严谨的多阶段流程，旨在从基础设施视角捕捉事故的完整叙事。其核心数据源来自真实世界的路边监控视频，经过专家筛选，确保每个片段均包含可见的碰撞或险情、充分的前置上下文以及可观察的后续结果。构建过程采用三阶段标注流水线：首先利用视觉语言模型生成包含四个时序阶段（交通场景、碰撞内容、事后状态、潜在原因）的草稿描述；随后由人类专家进行精细化修正，重点提升实体精确性、空间关系准确性、阶段边界清晰度及因果特异性；最后通过质量验证确保标注的内部一致性与术语标准化。基于这些阶段感知的密集描述，进一步通过大语言模型驱动的问题生成与验证流程，构建了涵盖七个类别的多项选择题对，形成了最终的大规模基准。

特点

作为首个专注于基础设施视角的交通事故视觉问答基准，CrashSight展现出若干鲜明特征。其核心在于引入了阶段感知的时序结构，将每个事故视频分解为碰撞前、碰撞动态、事后结果及潜在原因四个逻辑阶段，这为评估模型对事件叙事结构的理解提供了坚实基础。数据集包含约1.3万个多项选择题对，并组织为双层认知分类体系：第一层侧重于场景级感知，包括场景识别与涉事方识别；第二层则深入事件级推理与推断级判断，涵盖碰撞力学、归因分析、时序序列及事后结果。尤为独特的是，数据集专门设置了鲁棒性探测类别，通过设计无法确定、实体缺失、时序陷阱及错误前提四种问题类型，系统性地检验模型抵抗幻觉、识别证据局限的能力。这种结构化的分类与精细的标注设计，使得该基准能够全面、多层次地评估视觉语言模型在安全关键交通场景下的理解与推理能力。

使用方法

CrashSight数据集为评估和提升视觉语言模型在交通事故理解方面的性能提供了标准化框架。研究者可将其用于模型基准测试，通过在固定的训练、验证和测试划分上评估模型在七类问题上的多项选择准确率，从而系统比较不同模型架构、规模及微调策略的优劣。数据集特别适用于探究领域自适应方法的效果，例如，可利用其训练集对通用视觉语言模型进行微调，以检验模型在获得领域特定知识后，在时序推理、因果归因等复杂任务上的提升幅度。此外，其阶段感知的密集描述与结构化问题设计，为开发需要深层场景理解与解释能力的协同自动驾驶系统提供了宝贵的训练与验证资源。通过分析模型在鲁棒性类别上的表现，研究者还能深入诊断模型产生幻觉的倾向，并据此设计更可靠的感知与决策算法。

背景与挑战

背景概述

在协同自动驾驶领域，实现车辆与路侧基础设施的多视角场景理解是提升系统安全性的核心诉求。现有视觉语言模型在通用交通场景中展现出卓越的推理能力，但其在安全关键事件，尤其是交通事故场景下的性能评估尚不充分，主要受限于以车辆为中心的数据集构建范式。为弥合这一研究空白，威斯康星大学麦迪逊分校等机构的研究团队于2025年推出了CrashSight数据集。该数据集首次从路侧监控视角出发，构建了包含250个真实事故视频的大规模视觉问答基准，并标注了超过1.3万个基于双层认知分类体系的多选题对。其核心研究问题在于评估并推动视觉语言模型在基础设施视角下对交通事故的深度理解与因果推理能力，为协同自动驾驶中的路侧辅助感知提供了标准化的评估框架，对推动安全关键场景的多模态理解具有重要意义。

当前挑战

CrashSight数据集旨在解决的领域挑战，是评估视觉语言模型在路侧监控视角下对复杂交通事故进行深度场景理解与高阶推理的能力。具体而言，这包括对事故涉及的实体、场景的视觉定位挑战，以及对事故力学、因果归因、时序演进和事后结果等进行跨时段整合推理的挑战。在数据集构建过程中，研究团队面临多重挑战：首先，从倾斜、固定的监控视角获取的视频，存在小目标、部分遮挡及空间关系模糊等问题，为高质量密集描述标注带来了困难，近90%的模型初稿需要人工专家在多维度上进行实质性修正。其次，为确保评估的严谨性与认知深度，设计一个涵盖场景感知、事件推理与鲁棒性探测的两层分类体系，并生成具有对抗性的干扰选项，需要精密的流程设计与大量专家知识介入。最后，如何将事故固有的时序叙事结构（碰撞前、碰撞动态、事后、潜在原因）有效编码到标注与问答生成中，以实现时间接地的评估，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在协同自动驾驶与智能交通系统研究中，CrashSight数据集为评估视觉语言模型在安全关键场景下的理解与推理能力提供了标准化框架。该数据集最经典的应用场景是作为基准测试平台，用于系统评估各类先进视觉语言模型对真实世界交通事故视频的解析能力。研究者通过模型在数据集上的表现，能够量化其在场景识别、因果推断、时序理解等认知任务上的性能差距，从而揭示模型在基础设施视角下处理长尾安全事件时的核心瓶颈。

衍生相关工作

围绕CrashSight数据集，已衍生出多个聚焦于特定能力提升的经典研究工作。例如，针对模型在时序推理上的不足，有研究引入了自适应帧采样与事件驱动帧选择策略以优化视觉令牌利用效率；为改善空间 grounding 能力，部分工作探索了融合目标跟踪与运动感知表征的增强架构。此外，基于该数据集的错误分类与过渡分析，催生了针对视觉编码器微调策略、领域自适应训练协议以及混合正常与事故数据优化范式的系统性探索，共同推动了基础设施侧视觉语言模型在安全关键场景下的技术进步。

数据集最近研究