CrashEvent
收藏arXiv2024-06-16 更新2024-06-19 收录
下载链接:
https://crashllm.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
CrashEvent数据集由华盛顿州创建,包含19,340份真实世界交通事故报告,涵盖基础设施、环境和交通文本及视觉信息。数据集通过人机协作方式精心组织,确保信息丰富且无损。该数据集主要用于交通事件特征学习,通过大型语言模型预测事故类型、严重程度和受伤人数,旨在通过精细分析事故因素,提高交通安全性。
The CrashEvent Dataset was created by the State of Washington. It contains 19,340 real-world traffic accident reports, covering textual and visual information related to infrastructure, environmental conditions and traffic circumstances. The dataset is meticulously curated through human-machine collaboration to ensure comprehensive and intact information. Primarily intended for traffic event feature learning, it enables large language models to predict accident type, severity and injury count, with the goal of improving traffic safety via fine-grained analysis of accident-related factors.
提供机构:
华盛顿州
创建时间:
2024-06-16
搜集汇总
数据集介绍

构建方式
在交通安全研究领域,数据集的构建质量直接影响模型对复杂事故成因的解析能力。CrashEvent数据集通过人机协同的两阶段流程精心构建:第一阶段由领域专家对原始异构事故报告进行文本重分类与结构化组织,将其归纳为通用信息、基础设施信息、事件信息和单元信息四大类别;第二阶段借助大型语言模型(如ChatGPT)将非结构化的原始文本填充至预设的模板中,转化为逻辑连贯、约300词的文本段落。此方法高效整合了来自华盛顿州公路安全信息系统、卫星影像、警方事故报告等多源数据,最终形成了包含19,340条事故记录、约632万词汇的标准化语料库,在最大限度保留原始信息细节的同时,显著降低了人工标注成本。
特点
CrashEvent数据集的核心特征在于其首次将交通事故事件预测重构为文本推理问题。数据集每条记录均包含50个属性,全面覆盖事故的环境、基础设施、车辆及人员等多维度信息,并以无损的文本形式呈现,避免了传统特征工程中的信息损失。其规模覆盖华盛顿州242个城市与1,973个路段,具备高度的时空多样性与现实代表性。尤为突出的是,数据集定义了伤害人数、事故严重程度与事故类型三项关键预测任务,并引入了对应的特殊标记词汇,为大型语言模型的微调与评估提供了结构化基准。这种以自然语言为载体、融合多模态信息的组织形式,为深入探究事故因果机制提供了前所未有的数据基础。
使用方法
该数据集主要服务于基于大型语言模型的交通事故事件级预测与因果分析研究。使用者首先需将数据集的文本化提示(包含系统提示、用户提示与目标提示)输入模型。通过参数高效微调技术(如LoRA)对预训练语言模型(如LLaMA-2)进行监督式微调,使其学习根据上下文信息预测事故结果。在评估阶段,模型需完成对伤害人数、事故严重程度及事故类型的分类任务,常用准确率、精确率、召回率与F1分数等指标衡量性能。此外,数据集支持“假设性”情境分析,研究者可通过合成测试数据(如扰动酒精、天气或施工区等变量),利用微调后的模型分析特定风险因素对事故分布的影响,从而为交通安全政策制定提供数据驱动的决策参考。
背景与挑战
背景概述
随着全球道路交通事故率的攀升,交通安全研究领域亟需能够深入解析事故成因的智能分析工具。在此背景下,由德克萨斯大学奥斯汀分校、约翰斯·霍普金斯大学及NVIDIA研究院等机构的研究团队于2024年联合推出了CrashEvent数据集。该数据集旨在革新传统的交通事故分析方法,其核心研究问题在于如何利用大规模语言模型(LLMs)的文本推理能力,从复杂、非结构化的多模态事故报告中学习,以预测事故类型、严重程度及伤亡人数等详细结果。通过整合华盛顿州2022年度的19,340份真实事故报告,并融合基础设施、环境、交通文本与视觉信息,CrashEvent为基于语言模型的因果分析与情境感知研究奠定了重要基础,显著推动了交通安全分析从传统分类任务向深度语义理解与推理的范式转变。
当前挑战
CrashEvent数据集所针对的领域核心挑战在于传统机器学习方法难以有效处理交通事故分析中多因素交织的复杂性。现有研究常将事故预测简化为分类任务,通过手工特征工程将文本描述离散化,这不可避免地损失了原始报告中丰富的语义信息与因素间复杂的交互关系,导致模型无法深入理解事故的因果机制。在数据集构建过程中,研究团队面临的主要挑战包括如何高效整合来自高速公路安全信息系统、卫星图像、警方报告等多源异构数据,并将其转化为适合大语言模型学习的连贯文本格式。为此,团队设计了一套人机协作的两阶段流程,先由领域专家对数据进行重分类与结构化组织,再借助大语言模型进行文本化填充,在确保信息无损的同时,极大降低了人工标注的成本与负担。
常用场景
经典使用场景
在交通安全研究领域,CrashEvent数据集为基于大语言模型的事件级交通事故预测与分析提供了基准平台。该数据集将华盛顿州2022年19,340起真实交通事故报告,通过人机协作方式转化为结构化文本描述,涵盖基础设施、环境、事件过程及涉事单元等多维度信息。其经典应用场景在于将传统基于数值分类的交通事故分析范式,重构为文本推理问题,使研究者能够利用大语言模型的上下文理解能力,对事故严重程度、伤害人数及事故类型进行精细化预测,突破了传统机器学习方法对复杂异构数据表征能力的局限。
实际应用
该数据集的实际应用价值体现在为智能交通管理与安全政策制定提供决策支持。基于CrashEvent训练的CrashLLM模型能够服务于交通管理部门,进行实时或事后的交通事故深度分析,识别高风险路段与致因组合。其核心应用在于支持‘假设性’情境感知分析,例如评估酒驾查处力度加强、恶劣天气条件或施工区设置对事故分布与严重性的潜在影响。这种能力使得交通规划者能够在政策实施前模拟其安全效应,优化资源分配与干预策略,从而在现实世界中主动降低事故风险,提升道路安全水平。
衍生相关工作
CrashEvent数据集的发布催生了一系列围绕大语言模型与交通安全交叉领域的研究工作。其直接衍生的经典工作即论文中提出的CrashLLM框架,该框架首次将LLaMA等大语言模型通过参数高效微调技术适配于交通事故预测任务,并验证了其超越随机森林、贝叶斯网络等传统模型的性能。此外,该数据集启发了对交通领域文本数据进行因果推理建模的新方向,促进了针对‘假设分析’、分布偏移评估及可解释性安全分析等高级任务的方法创新,为后续研究如何将领域知识更深层次地融入大模型、构建多模态交通事故分析系统奠定了基础。
以上内容由遇见数据集搜集并总结生成



