CrashSight

github2026-03-02 更新2026-03-29 收录

下载链接：

https://github.com/mcgrche/CrashSight-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

CrashSight是首个利用真实世界路边摄像头数据进行道路碰撞理解的大规模视觉语言基准数据集。包含250个真实世界碰撞视频，13K个多项选择QA对，带有阶段感知的密集标注，以及两层次评估分类体系（视觉定位和法医推理）。

CrashSight is the first large-scale visual-language benchmark dataset for road crash understanding that leverages real-world roadside camera data. It includes 250 real-world crash videos, 13K multiple-choice QA pairs, stage-aware dense annotations, and a two-level evaluation taxonomy covering visual localization and forensic reasoning.

创建时间：

2026-03-02

原始信息汇总

CrashSight-VQA 数据集概述

数据集简介

CrashSight 是首个利用真实世界路边摄像头数据进行道路碰撞理解的大规模视觉语言基准。

核心数据构成

视频数据：包含 250 个来自路边摄像头的真实世界碰撞视频。
标注数据：包含 13K 个多项选择题问答对，并带有阶段感知的密集描述。

评估体系与分类

采用双层评估分类法，涵盖：

视觉定位：包括场景识别、涉事方识别。
因果推理：包括碰撞力学、责任判定、时间序列推理。

数据集特性

鲁棒性：内置了用于测试抗幻觉能力和证据充分性的探针。
应用场景：专为基础设施辅助感知的安全关键场景评估而设计。

基准测试关键发现

对 8 种最先进的视觉语言模型配置的评估表明：

领域适应：对 Qwen2.5-VL-7B 模型进行微调，可实现平均准确率最高提升 +13.5%。
架构影响：InternVL3 模型在零样本时间排序任务上表现出卓越能力。
人机差距：在视觉要求高的类别中，当前模型与人类表现仍存在持续差距，表明空间定位能力和视觉令牌预算是当前模型的主要瓶颈。

引用

如需在研究中引用本工作，请使用以下文献：（引用格式待提供）

搜集汇总

数据集介绍

构建方式

在智能交通系统与自动驾驶协同发展的背景下，CrashSight数据集以基础设施视角为核心，系统性地构建了首个面向真实世界路边监控场景的大规模视觉语言基准。该数据集从广泛的公开交通监控资源中，精心筛选并收录了250段真实发生的交通事故视频片段。基于这些视频，研究团队构建了一个包含1.3万个多项选择题问答对的高质量标注体系，并创新性地引入了阶段感知的密集描述标注方法，从而为事故的时序演变过程提供了细粒度的文本描述。整个构建过程严格遵循了从原始视频采集、关键帧提取、到多维度人工标注与交叉验证的标准化流程，确保了数据在安全关键场景下的可靠性与代表性。

特点

CrashSight数据集的核心特点在于其以基础设施为中心的设计理念与层次化的评估体系。数据集专门针对路边摄像头视角，弥补了车载感知在事故全貌理解上的局限，为车路协同安全研究提供了不可替代的视角。其标注体系设计精妙，不仅包含对事故现场、涉事方的基础视觉定位任务，更深入至事故机理分析、责任判定与时间序列推理等高级认知层面，形成了从感知到推理的两层评估框架。尤为突出的是，数据集内置了针对模型幻觉与证据充分性的探测机制，能够有效评估模型回答的可靠性与对视觉证据的依赖程度，为模型的鲁棒性测试提供了严谨的基准。

使用方法

研究人员可利用CrashSight数据集对视觉语言模型在复杂动态交通场景下的理解与推理能力进行全面评估。使用该数据集时，通常遵循标准的基准测试流程：首先下载并解析视频数据与对应的标注文件，随后将视频帧与文本问题作为输入，馈入待评估的视觉语言模型以获取预测答案。评估过程覆盖其定义的两个层级共五个任务类别，通过计算模型预测与标准答案的匹配度来量化性能。该数据集尤其适用于探究模型在零样本设置下的泛化能力、特定领域微调的效果，以及不同模型架构在时序推理与空间 grounding 任务上的表现差异，为模型在安全关键应用中的能力边界提供实证依据。

背景与挑战

背景概述

在智能交通系统与协同自动驾驶技术蓬勃发展的背景下，基础设施视角的感知能力成为保障道路安全的关键环节。CrashSight数据集由相关研究团队于近期构建，作为首个基于真实世界路侧摄像头数据的大规模视觉-语言基准，其核心研究问题聚焦于从基础设施角度深入理解交通事故场景。该数据集通过引入阶段感知的密集标注与多层级评估体系，旨在系统评估模型在安全关键场景下的视觉定位与法医推理能力，为自动驾驶系统的安全验证与基础设施辅助感知研究提供了至关重要的实证基础。

当前挑战

CrashSight所针对的交通事故场景理解领域，其核心挑战在于模型需从复杂动态视频中精准完成视觉定位与因果推理。具体而言，挑战体现在要求模型识别事故参与方、解析碰撞力学、判定责任归属并重建时序逻辑，这对模型的时空理解与常识推理能力提出了极高要求。在数据集构建层面，挑战主要源于对真实事故视频进行阶段感知的密集标注工作，包括在动态、模糊且视角受限的路侧监控画面中，人工标注者需精确划分事故阶段并生成高质量的多选题与描述文本，这一过程成本高昂且对标注一致性构成严峻考验。

常用场景

经典使用场景

在智能交通系统与自动驾驶研究领域，CrashSight数据集为基础设施辅助感知提供了关键评估基准。该数据集通过250段真实路边摄像头拍摄的交通事故视频，构建了涵盖场景识别、涉事方分析、碰撞机理、责任判定及时间序列推理的多层次评估体系。研究者通常利用其13K带有时相感知的密集标注问答对，系统检验视觉语言模型在安全关键场景下的理解与推理能力，尤其在零样本或微调设置下评估模型对复杂动态事件的解析精度。

实际应用

在实际交通管理与自动驾驶系统开发中，CrashSight为基于路侧智能摄像头的实时事故分析与预警系统提供了数据基础。其标注体系可直接用于训练模型自动识别事故参与方、还原碰撞过程、推断责任归属，并生成时序清晰的事件描述。这有助于交通管理部门快速响应事故、优化路口设计，同时为自动驾驶车辆提供基础设施协同的安全冗余验证，提升整体道路安全水平。

衍生相关工作

围绕CrashSight数据集，已衍生出多项聚焦于视觉语言模型在交通场景适配性的经典研究。例如，基于Qwen2.5-VL-7B的领域微调工作展示了在事故理解任务上的显著性能提升；而InternVL3架构则因其在零样本时序排序方面的优越表现受到关注。这些工作共同推动了模型鲁棒性、时空推理能力以及多模态对齐技术在安全敏感场景下的演进，为后续基础设施协同感知研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集