five

Hackerearth-Criminal-Dataset

收藏
github2018-11-06 更新2024-05-31 收录
下载链接:
https://github.com/aayushs879/Hackerearth-Criminal-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含45000个标记样本,每个样本包括个人ID和71个个人详细信息特征,用于预测个人未来是否可能犯罪。

This dataset comprises 45,000 labeled samples, each consisting of a personal ID and 71 personal detailed features, and is designed to predict whether an individual is likely to commit a crime in the future.
创建时间:
2018-01-12
原始信息汇总

数据集概述

数据集名称

Hackerearth-Criminal-Dataset

问题陈述

该数据集旨在通过分析个人的职业和私人生活信息,预测其未来是否可能犯罪。数据集包含过去有犯罪记录的个体的信息,用于训练模型以预测测试数据中个体是否可能犯罪。

数据集描述

  • 样本数量:训练数据包含45718行,测试数据包含11430行。
  • 特征数量:共有71个特征,包括个人ID和详细个人信息。

数据处理与模型实现

  • 数据处理:通过可视化数据集并使用sklearn进行特征选择,基于卡方检验剔除无关特征。
  • 模型实现
    • 使用sklearn实现了一个多层感知器模型,经过多次参数调整,在提交脚本上达到85%的准确率。
    • 使用sklearn实现了一个支持向量机分类器,采用高斯核函数,通过参数调整,在交叉验证集上达到90%的准确率,在提交脚本上达到93%的准确率。

模型评估

  • 多层感知器模型:准确率为85%。
  • 支持向量机模型:交叉验证准确率为90%,提交脚本准确率为93%。
搜集汇总
数据集介绍
main_image_url
构建方式
Hackerearth-Criminal-Dataset的构建方式是通过收集45000个标注样本,每个样本包含个人ID及其个人详细信息作为特征,共计71个特征。构建过程中,首先对数据集进行可视化分析,移除完全不相关特征,然后基于卡方检验对剩余特征进行特征选择,最终形成训练和测试数据集,分别包含45718行和11430行数据。
特点
该数据集的特点在于其详尽的个人特征信息,为预测个人未来是否可能犯罪提供了丰富的数据基础。数据集通过精确的特征筛选,确保了特征的相关性,同时,训练数据与测试数据的规模比例为4:1,有利于模型的训练与验证。此外,数据集经过严格的数据清洗和预处理,保证了数据质量。
使用方法
使用该数据集时,用户需首先理解各特征含义,并确保对数据集进行了适当的预处理。模型训练阶段,可利用数据集提供的训练数据构建机器学习模型,如多层感知器或支持向量机分类器。训练过程中,需对模型参数进行调优,以达到最佳的交叉验证准确率。最终,模型需在测试集上进行验证,并提交至Hackerearth平台以获取准确率评分。
背景与挑战
背景概述
随着近年来犯罪案件的激增,犯罪问题成为执法部门关注的焦点。为了预防犯罪行为,Hackerearth-Criminal-Dataset数据集应运而生。该数据集由Hackerearth平台创建于近年,旨在通过分析个体的职业及私人生活相关信息,预测其未来是否可能犯罪。数据集包含了45000个标记样本,涵盖个人ID和71个特征信息,为犯罪预测领域的研究提供了宝贵的资源。
当前挑战
该数据集在构建和应用过程中面临诸多挑战。首先,犯罪预测领域的核心问题是如何准确预测个人未来的犯罪倾向。数据集的构建者需要在保证数据隐私的同时,确保特征的相关性和有效性。其次,在数据预处理阶段,无关特征的筛选和特征选择是提高模型性能的关键。此外,模型的选择和参数调优也是一项挑战,研究者在尝试多层感知器和支持向量机分类器时,需要不断调整参数以获取更高的准确率。
常用场景
经典使用场景
在犯罪预测的研究领域中,Hackerearth-Criminal-Dataset被广泛用于构建预测模型,其核心目的是基于个体的个人信息和行为数据,预测其未来可能发生的犯罪行为。该数据集通过机器学习模型的训练,可以实现对犯罪倾向的有效预测,是犯罪学、数据科学以及法律实施领域的重要资源。
解决学术问题
该数据集解决了犯罪预测中个体再犯风险评估的学术问题,有助于法律实施机构提前介入,采取预防措施。通过数据挖掘和模式识别技术,研究者能够识别出潜在的犯罪风险因素,为犯罪预防策略的制定提供了科学依据,对于减少犯罪率、提高社会治安水平具有显著意义。
衍生相关工作
基于Hackerearth-Criminal-Dataset的研究衍生出了多种犯罪预测模型和算法,如多层感知器神经网络和基于高斯核的支持向量机分类器。这些研究进一步推动了犯罪学领域的定量分析,为相关政策和法律提供了实证基础,并在机器学习算法优化和模型评估方面做出了贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作