five

US-Accidents

收藏
arXiv2019-09-20 更新2024-06-21 收录
下载链接:
https://smoosavi.org/datasets/us_accidents
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
US-Accidents数据集是由俄亥俄州立大学的研究团队创建,涵盖了2016年2月至2019年3月期间美国本土发生的约225万起交通事故。该数据集通过综合多种数据源,包括交通事件、天气数据、兴趣点及时间信息,详细记录了每起事故的位置、时间、描述、天气状况及相关的兴趣点数据。创建过程中,研究团队采用了全面的数据收集、整合和增强方法,确保数据集的准确性和可用性。US-Accidents数据集主要用于城市规划、交通基础设施设计缺陷探索、交通控制与预测及个性化保险等领域的研究,旨在通过分析交通事故与环境因素的关系,提高交通安全性。

The US-Accidents dataset was developed by a research team from The Ohio State University, covering approximately 2.25 million traffic accidents that took place in the contiguous United States between February 2016 and March 2019. By combining multiple data sources including traffic incident records, weather data, points of interest (POIs) and temporal information, this dataset comprehensively documents the location, timestamp, detailed description, weather conditions and relevant POI data for each individual accident. In the course of dataset construction, the research team adopted holistic data collection, integration and enhancement approaches to guarantee the accuracy and usability of the dataset. The US-Accidents dataset is primarily utilized for research across domains such as urban planning, investigation of traffic infrastructure design deficiencies, traffic control and prediction, as well as personalized insurance. Its core objective is to analyze the correlations between traffic accidents and environmental factors, so as to enhance traffic safety.
提供机构:
俄亥俄州立大学
创建时间:
2019-09-20
搜集汇总
数据集介绍
main_image_url
构建方式
在交通数据分析领域,构建全面且具有代表性的数据集对研究至关重要。US-Accidents数据集的构建采用了多源异构数据集成与增强的方法论。研究团队通过MapQuest和微软Bing地图的实时交通API,以90至150秒的间隔持续采集2016年2月至2019年3月间的流式交通事故报告,共收集约227万起事故原始记录。通过基于哈弗辛距离和时间阈值的去重算法,整合了来自两个数据源的记录,最终形成包含约225万起独立事故的统一数据集。随后,通过逆向地理编码将GPS坐标转换为结构化地址信息,并利用气象观测站数据和OpenStreetMap的兴趣点数据,以空间邻近性匹配算法为每起事故补充了天气状况、道路设施类型等关键上下文属性,从而构建了一个时空属性丰富的大规模数据集。
特点
该数据集在公开的交通事故数据资源中展现出显著的规模与维度优势。其核心特征在于覆盖了美国本土连续48个州超过三年的广泛地理范围,样本量达到225万起,年均约75万起,远超同类公开数据集。数据维度极为全面,每条记录包含45个属性,不仅涵盖事故本身的时间、位置、严重程度和自然语言描述,还深度融合了气象条件、昼夜时段分类以及13类道路兴趣点标注。特别值得注意的是,数据集通过严谨的空间阈值优化方法,将事故与交叉口、交通信号灯、高速公路匝道等关键道路设施进行关联,为分析事故的环境诱因提供了精细化的数据基础。这种多维度、大规模且公开可得的特性,使其成为交通安全性研究的宝贵资源。
使用方法
该数据集为交通工程与计算机科学领域的多类研究提供了实证基础。研究者可将其用于时空模式挖掘,例如分析事故热点在日、周、年尺度上的分布规律,或探究天气因素与事故率的关联性。在预测建模方面,该数据集丰富的特征可作为机器学习模型的输入,用于开发实时事故风险预测系统。具体操作时,用户可从指定公开链接获取结构化数据文件,通常为CSV格式。在进行时空分析前,需对地理位置坐标进行坐标系统一,并处理可能存在的缺失值。对于预测任务,可将时间戳分解为周期性特征,并将分类变量进行适当编码。数据集中提供的兴趣点和天气标签可直接作为模型特征,用于探究道路环境与气象条件对事故发生的复合影响。此外,其大规模特性也支持进行细粒度的子集分析,如针对特定州、道路类型或天气状况的深入研究。
背景与挑战
背景概述
在交通安全研究领域,大规模、高覆盖度的交通事故数据集对于深入分析事故成因、预测潜在风险及优化交通管理策略具有至关重要的作用。US-Accidents数据集由俄亥俄州立大学计算机科学与工程系的Sobhan Moosavi等人于2019年创建,旨在应对现有数据资源在规模、时效性与信息完整性方面的局限。该数据集涵盖了2016年至2019年间美国本土约225万起交通事故记录,并通过集成地理位置、时间描述、天气状况、兴趣点及昼夜时段等多维度上下文属性,为交通事故的时空模式分析与预测建模提供了前所未有的数据基础。其公开可用性显著推动了智能交通系统、城市规划及公共安全领域的实证研究,成为该领域内一项具有里程碑意义的资源。
当前挑战
US-Accidents数据集致力于解决交通事故分析与预测中因数据碎片化与信息缺失所带来的核心挑战。在领域问题层面,传统研究常受限于小规模、局部性数据集,难以捕捉全国范围内事故的时空异质性及复杂环境关联;而现有大型数据集又往往存在数据私有、时效滞后或上下文特征匮乏等问题,限制了模型的泛化能力与实用价值。在构建过程中,研究团队面临多重技术挑战:需整合来自MapQuest与Bing等多源实时交通流数据,并通过启发式阈值去重以确保数据唯一性;同时,通过反向地理编码、气象站观测记录匹配及开放街道地图兴趣点标注等多阶段数据增强,以融合异构上下文信息,并利用正则表达式模式与距离阈值优化来解决空间标注的准确性与相关性难题。
常用场景
经典使用场景
在交通工程与公共安全领域,US-Accidents数据集为大规模交通事故分析提供了关键数据基础。该数据集广泛应用于时空热点探测,研究者通过其丰富的时空属性,能够精准识别事故高发路段与时段,揭示城市交通网络的脆弱节点。例如,结合天气、兴趣点等上下文信息,学者们深入探究了事故与恶劣天气、道路设施布局之间的关联,为交通管理策略的优化提供了实证依据。
解决学术问题
该数据集有效解决了以往研究因数据规模有限、覆盖范围狭窄而导致的泛化能力不足问题。通过提供全国范围、多源融合的详细事故记录,它支持了从宏观趋势到微观因果的复杂分析,使得基于机器学习的实时事故预测模型得以在大规模真实场景中验证与改进。其意义在于推动了交通安全的量化研究,为制定数据驱动的干预措施奠定了坚实基础,显著提升了学术成果的实际影响力。
衍生相关工作
基于US-Accidents,学术界衍生出一系列经典研究工作。例如,研究者利用其开发了融合时空异质数据的深度学习模型(如Hetero-ConvLSTM),实现了高精度的实时事故预测。同时,该数据集也被用于大规模地理时空数据中的模式发现研究,揭示了事故传播与影响规律。这些工作不仅拓展了智能交通的研究边界,也为后续构建更完善的城市安全感知体系提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作