road accident dataset|道路安全数据集|事故分析数据集
收藏Road Accident Data Analytics Project
数据集概述
本项目旨在分析道路事故数据,以洞察导致事故的因素,识别模式,并提出基于数据的道路安全改进建议。所使用的数据集包含有关道路事故各个方面的信息,如位置、时间、天气条件和严重程度。
数据集内容
- 数据来源:项目使用的道路事故数据集包括事故位置、日期、时间、天气条件、道路类型和严重程度等信息。
- 数据清洗:原始数据经过彻底清洗,处理缺失值、异常值和数据不一致性,以供后续分析使用。
- 探索性数据分析 (EDA):通过描述性统计和可视化探索数据分布、变量间的相关性和数据中的模式。
- 数据可视化:使用Matplotlib、Seaborn和Plotly等工具创建图表、图形和地图,以有效展示关键发现。
- 统计分析:进行回归分析、假设检验和相关性研究等统计测试,以验证假设并识别对道路事故有显著影响的因素。
- 机器学习模型:应用决策树或逻辑回归等机器学习模型预测事故严重程度,使用适当的指标训练和评估模型。
- 结果与洞察:项目总结了发现、可行的见解和改进道路安全的建议,关键发现得到可视化和统计证据的支持。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录