Crime Data from 2020 to Present|犯罪分析数据集|犯罪数据数据集
收藏Crime Data from 2020 to Present
数据集概述
- 数据集名称: Crime Data from 2020 to Present
- 数据集内容: 包含2020年至今的犯罪事件详细记录。
- 关键字段:
- 日期和时间: 犯罪发生的时间
- 犯罪类型和描述: 犯罪的具体类型和描述
- 位置坐标: 纬度和经度
- 受害者信息: 年龄、性别、种族
项目结构
├── data/ # 数据集文件夹 ├── notebooks/ # 用于EDA和模型训练的Jupyter笔记本 ├── src/ # 数据预处理和建模的源代码 ├── README.md # 项目README └── requirements.txt # 依赖项
使用方法
- 数据预处理: 运行预处理步骤以清理数据集,处理缺失值和过滤异常值。
- 探索性数据分析 (EDA): 执行EDA以识别数据中的模式,如犯罪的时间和地理分布。
- 模型训练: 使用SMOTE进行类别平衡,并使用随机森林分类器进行犯罪类型预测。
- 模型评估: 使用准确率、精确率、召回率和F1分数评估模型性能。
方法论
- 数据清洗: 处理关键字段中的缺失值和异常值。
- 特征工程: 基于位置、时间段和受害者人口统计信息创建有意义的特征。
- 使用SMOTE进行过采样: 使用SMOTE平衡数据集中的少数类。
- 模型训练: 使用随机森林分类器,在测试数据上达到约87%的准确率。
- 模型评估: 生成详细的分类报告,评估模型在不同犯罪类型上的性能。
结果
- 模型准确率: 达到87%的准确率。
- 分类报告: 大多数犯罪类别表现出较强的精确率、召回率和F1分数,尤其是代表性较强的类型。
- 洞察: EDA提供了关于犯罪趋势和地理热点的关键见解。
未来改进
- 超参数调优: 使用GridSearchCV等技术进一步优化模型。
- 高级模型: 尝试使用XGBoost等模型以获得更好的性能。
- 交互式可视化: 添加可视化以深入洞察和趋势探索。

China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录