train.csv|网络犯罪数据集|机器学习数据集
收藏CyberAIHackathon 数据集概述
数据集描述
该数据集用于分类网络犯罪投诉,将其归类到特定的类别和子类别。数据集包含真实的网络犯罪报告,旨在帮助执法机构和组织有效分类事件以进行进一步调查。
关键特性
- 文本预处理:包括分词、词干提取和停用词移除。
- TF-IDF向量化:使用TF-IDF技术将文本数据转换为数值形式。
- 类别不平衡处理:使用ADASYN技术平衡数据集,解决类别不平衡问题。
- 机器学习模型:训练XGBoost分类器,基于输入文本预测网络犯罪类别。
- 误分类分析:提供热图可视化,理解常见误分类。
- 可视化:可视化类别和子类别分布,获取数据集洞察。
技术栈
- 编程语言:Python
- NLP库:NLTK, scikit-learn
- 机器学习:XGBoost
- 数据平衡:ADASYN (Imbalanced-learn)
- 数据可视化:Matplotlib, Seaborn
- 模型持久化:Joblib
项目结构
- train.csv:包含网络犯罪报告的数据集。
- cgbmodel.py:包含所有预处理、模型训练、评估和可视化步骤的主Python脚本。
- tfidf_pipeline_optimized.pkl:用于转换输入文本的保存TF-IDF模型。
- xgb_category_model_optimized.pkl:用于预测网络犯罪类别的训练XGBoost模型。
- misclassification_heatmap.png:可视化常见误分类的热图。
安装与使用
- 安装:
- 克隆仓库:
git clone https://github.com/Chaosop24/CyberAIHackathon.git
- 进入项目目录:
cd cybercrime-classification
- 安装所需依赖
- 克隆仓库:
- 使用:
- 确保数据集(train.csv和test.csv)在项目目录中。
- 运行主脚本:
python cgbmodel.py
- 查看生成的可视化和分类报告。
结果
- 准确率:在数据集上达到约83%的总体准确率。
- 误分类分析:使用热图识别和可视化常见误分类模式。
未来改进
- 集成深度学习:尝试使用BERT或GPT等高级NLP模型以提高分类准确性。
- 媒体分析:结合图像和视频分析,进行多模态犯罪报告。
- 实时部署:构建实时系统,处理和分类传入的网络犯罪投诉。
致谢
- 数据集提供:国家网络犯罪报告门户。
- 灵感来源:受现实世界中分类网络犯罪报告的挑战启发。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
GetData.IO - finance - Google Search
GetData.IO -
getdata.io 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录