统一交通意外记录数据集

Name: 统一交通意外记录数据集
Creator: 东北大学, 波士顿
Published: 2024-02-13 01:09:19
License: 暂无描述

arXiv2024-02-13 更新2024-06-21 收录

下载链接：

https://github.com/VirtuosoResearch/ML4RoadSafety

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由东北大学波士顿分校构建，包含从美国各州官方报告中提取的900万条交通意外记录，涵盖长达20年的时间跨度。数据集不仅包括意外记录，还整合了道路网络和交通流量报告，旨在通过深度学习方法预测道路网络上的意外发生。该数据集的应用领域主要集中在交通意外风险建模，帮助识别特定位置的事故潜在风险，从而为政策干预提供信息支持。

This dataset was constructed by the Boston campus of Northeastern University. It contains 9 million traffic accident records extracted from official reports across all U.S. states, covering a 20-year longitudinal time span. In addition to accident records, the dataset also integrates road network datasets and traffic flow reports, with the objective of predicting traffic accident occurrences on road networks using deep learning methodologies. The primary application domains of this dataset focus on traffic accident risk modeling, which aids in identifying potential accident risks at specific locations and provides data-driven support for policy interventions.

提供机构：

东北大学, 波士顿

创建时间：

2023-11-01

搜集汇总

数据集介绍

构建方式

在交通安全的学术研究领域，数据集的构建质量直接决定了模型预测的准确性与泛化能力。统一交通意外记录数据集的构建过程体现了严谨的科学方法，其核心在于从美国八个州的交通部门官方报告中系统性地收集了超过900万条交通事故记录，时间跨度最长达到二十年。研究团队面临不同州数据格式与接口各异的挑战，通过精心设计的数据清洗与对齐流程，将这些异构数据统一为标准化格式。此外，数据集还整合了基于OpenStreetMap提取的道路网络结构、年度平均日交通流量报告以及历史天气信息，并通过地理坐标将事故记录精准映射至道路网络的对应边上，从而形成了一个包含时空特征与图结构信息的综合性多模态数据集。

特点

该数据集在交通安全分析领域展现出若干显著特点。其规模宏大，涵盖多州长达二十年的记录，为研究跨区域与长期的交通事故模式提供了坚实基础。数据模态丰富，不仅包含事故的时间与空间坐标，还融合了道路网络的拓扑特征、交通流量以及气象条件，使得多维度联合分析成为可能。数据集构建以边为预测单元，将每条道路作为一个实例，并提供了回归（预测事故数量）与分类（预测是否发生事故）双重任务标签，增强了其评估的灵活性。尤为重要的是，数据集的稀疏标签特性（正标签率低于0.3%）真实反映了现实世界中事故的偶发性，对模型的泛化能力提出了更高要求。

使用方法

该数据集的使用旨在推动基于图神经网络的交通安全预测研究。研究者可通过其提供的标准化接口，便捷地加载特定州在指定月份的数据，获取包含节点特征、边列表、边属性及事故标签的图结构数据。典型的应用流程包括：利用图神经网络（如GraphSAGE）作为编码器，学习道路网络的结构表征；通过多任务学习框架整合各州数据，以捕捉跨区域的宏观趋势；或借助迁移学习技术，将交通流量预测任务作为辅助任务，以提升事故预测的主任务性能。数据集的评估支持均方误差与AUROC等指标，便于在统一基准下比较不同模型的预测精度与分类效能。

背景与挑战

背景概述

统一交通意外记录数据集由美国东北大学的研究团队于2023年构建，旨在解决交通网络安全分析中公共数据资源匮乏的核心问题。该数据集整合了美国八个州官方部门发布的超过900万起交通事故记录，时间跨度最长可达二十年，并融合了道路网络结构、交通流量及天气等多维度特征。其核心研究问题聚焦于利用图神经网络等深度学习方法，精准预测道路网络中交通事故的发生概率与数量，从而为城市交通安全管理与政策干预提供数据驱动的决策支持。该数据集的建立显著推动了智能交通系统领域的研究进展，为大规模、跨区域的交通事故风险建模设立了新的基准。

当前挑战

在交通意外预测领域，该数据集致力于应对高精度事故风险建模的挑战，包括如何有效融合异构时空数据以捕捉事故发生的复杂模式，以及如何在数据稀疏标注条件下提升模型的泛化能力。在构建过程中，研究团队面临多重挑战：首先，各州交通事故报告格式与接口差异显著，需克服数据异构性以实现统一整合；其次，交通流量等关键特征的采集覆盖度有限，部分道路信息缺失可能影响模型完整性；此外，数据标注率普遍低于0.3%，对复杂模型的训练构成约束。这些挑战共同凸显了大规模交通安全数据标准化与高质量标注的重要性。

常用场景

经典使用场景

在交通工程与智能交通系统领域，统一交通意外记录数据集为基于图神经网络的交通事故风险建模提供了基准平台。该数据集整合了美国八个州长达二十年的九百万条官方事故记录，并耦合了道路网络拓扑结构、交通流量及气象等多源异构特征。其经典应用场景在于评估各类深度学习模型在道路网络边级别的事故发生概率与数量预测任务上的性能，尤其适用于验证图神经网络在捕捉道路结构依赖性方面的有效性。通过将历史事故记录映射为道路网络边上的标签，研究者能够系统性地探究网络拓扑特征与事故风险之间的关联，为交通安全分析提供了数据驱动的建模框架。

实际应用

在实际交通管理领域，该数据集支撑的风险预测模型可直接应用于智能交通系统中的动态风险图谱构建。交通规划部门可利用模型输出识别事故高风险路段，优化交通信号控制、限速策略或道路改造方案。保险行业可借助预测结果精细化评估区域风险等级，实现差异化保费定价。此外，模型可为车载导航系统提供实时风险预警，引导驾驶员规避高风险时段与路段，从而降低事故发生率。数据集涵盖的多州长期数据也使得跨区域交通安全政策比较成为可能，为“零死亡愿景”等安全倡议的实施效果提供了长期监测与评估工具。

衍生相关工作

基于该数据集衍生的经典工作主要集中在图神经网络架构的优化与跨域学习方法的探索。研究者在基准测试中发现，GraphSAGE等简单图神经网络在稀疏标注场景下表现优异，促进了面向稀疏图数据的轻量化模型设计。多任务学习框架被广泛应用于捕捉跨州交通模式的共性，推动了异构交通网络间的知识迁移研究。同时，数据集支撑了交通流量预测与事故预测的联合建模，催生了多模态时序图神经网络的新颖架构。此外，部分工作进一步探索了结合卫星图像的道路网络细粒度特征提取，以及基于对比学习的时空图表示学习，这些衍生研究共同拓展了数据驱动交通安全分析的边界。

以上内容由遇见数据集搜集并总结生成