five

Traffic Accident Injury Severity Dataset

收藏
arXiv2022-05-21 更新2024-06-21 收录
下载链接:
https://ale66.github.io/traffic-accident-gravity-predictor/
下载链接
链接失效反馈
官方服务:
资源简介:
Traffic Accident Injury Severity Dataset是由伦敦大学伯贝克学院计算机科学与信息系统系创建的一个大型数据集,旨在通过机器学习算法预测交通事故中伤害的严重程度。该数据集整合了英国交通部2005至2018年的公开数据,包含2,915,883条记录,涉及事故条件、车辆信息等。创建过程中,研究团队采用了数据清洗、缺失值处理和特征工程等技术。数据集主要应用于解决交通事故伤害预测问题,特别是在处理数据不平衡和缺失值方面具有挑战性。

Traffic Accident Injury Severity Dataset is a large-scale dataset developed by the Department of Computer Science and Information Systems of Birkbeck, University of London, which aims to predict the severity of injuries in traffic accidents via machine learning algorithms. This dataset integrates publicly available data from the UK Department for Transport spanning from 2005 to 2018, containing 2,915,883 records covering accident conditions, vehicle information and other relevant aspects. During its development, the research team adopted technologies including data cleaning, missing value handling and feature engineering. The dataset is primarily applied to solve traffic accident injury prediction tasks, and it poses particular challenges in handling data imbalance and missing values.
提供机构:
伦敦大学伯贝克学院计算机科学与信息系统系
创建时间:
2022-05-21
搜集汇总
数据集介绍
main_image_url
构建方式
交通意外伤害严重程度数据集的构建方式主要包括数据合并、缺失值处理、特征重要性分析和缺失值填充。数据合并阶段将来自英国交通部公开的交通事故数据、车辆数据和伤亡数据合并为一个整体。缺失值处理阶段删除了部分不相关或缺失值过多的特征,并对剩余缺失值进行了基于领域知识的手动填充。特征重要性分析阶段利用各种统计和机器学习方法评估了每个特征的重要性,并删除了部分冗余特征。最后,使用MissForest算法对剩余缺失值进行了填充,并进一步删除了部分冗余特征,最终形成了包含49个特征的新数据集。
特点
交通意外伤害严重程度数据集具有以下特点:首先,数据集来源于英国交通部公开的交通事故数据,具有权威性和可靠性;其次,数据集包含了2005年至2018年的数据,时间跨度长,能够反映交通意外伤害的长期趋势;再次,数据集包含了大量特征,包括事故条件、车辆信息、伤亡信息等,为研究提供了丰富的信息;最后,数据集是一个不平衡多分类问题,对于研究不平衡数据集的处理方法具有重要意义。
使用方法
交通意外伤害严重程度数据集的使用方法主要包括数据预处理、特征工程和模型训练。数据预处理阶段需要根据研究需要进行数据清洗、缺失值处理和特征选择等操作。特征工程阶段可以根据研究目标对特征进行转换、组合或创建新的特征,以提高模型的预测能力。模型训练阶段可以使用各种机器学习算法进行训练,包括监督学习和强化学习等。此外,数据集还提供了两个基准模型,分别为监督学习的人工神经网络模型和强化学习的深度Q网络模型,可以作为研究者在测试更先进的机器学习算法时的参考。
背景与挑战
背景概述
交通事故伤害严重程度数据集(Traffic Accident Injury Severity Dataset)是一项由英国运输部(Department for Transport, DfT)提供的公共数据集,由Paschalis Lagias等研究人员创建,旨在评估机器学习算法在预测交通事故中伤害严重程度方面的性能。该数据集由2005年至2018年间英国的交通事故数据汇总而成,数据维度高达数千个变量,其中缺失属性的比例有时接近总数据维度的一半。研究人员使用MissForest模型来处理这种数据不完整性,并提出了两种基线方法来创建伤害预测器:一种是有监督的人工神经网络,另一种是强化学习模型。这一数据集可能刺激机器学习研究中不平衡数据集的多样性方面,并且这两种方法可以作为研究人员测试更先进学习算法的基准参考。
当前挑战
交通事故伤害严重程度数据集面临着多项挑战。首先,数据集中存在着严重的类别不平衡问题,例如,轻微事件(如停车场内的碰撞)和涉及住院或更严重后果的重大事件之间存在信息不对称。这种不平衡分布对预测准确度产生了影响,尤其是对少数类别(如致命事故)的测试方法。其次,数据集存在大量缺失值,需要通过数据插补技术进行处理。此外,数据集的特征工程和选择也是一个挑战,因为需要从众多变量中识别出与伤害严重程度相关的关键特征。最后,由于交通事故的复杂性和多样性,预测模型的设计和评估也面临着挑战。
常用场景
经典使用场景
在交通事故领域,该数据集的经典使用场景在于预测事故中受伤的严重程度。通过对事故条件、车辆信息等可用数据进行深入分析,研究者可以利用该数据集构建机器学习模型,从而预测受伤的严重程度,为医疗救援和事故处理提供决策支持。
实际应用
在实际应用场景中,该数据集可以用于开发智能交通系统,如事故预警和紧急救援系统。通过对事故数据的深入分析,系统可以提前预测事故的严重程度,从而及时采取相应的措施,降低事故伤亡率。此外,该数据集还可以用于保险公司的事故理赔评估,以及政府部门的交通安全管理。
衍生相关工作
该数据集的建立为后续相关研究提供了重要的数据基础。在此基础上,研究者可以进一步探索更先进的机器学习算法,以提高预测准确率。此外,该数据集还可以用于比较不同算法在处理不平衡数据集时的性能,为算法选择和优化提供参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作