US Homicide Reports
收藏github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/LinaYorda/predicting-crime-with-machine-learning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Murder Accountability Project,包含了1980年至2014年间超过600,000起凶杀案的详细报告。它整合了FBI的补充凶杀报告,以及通过信息自由法案获得的未向司法部官方报告的超过22,000起凶杀案的数据。数据集提供了每个凶杀案的详细信息,包括案件记录ID、机构代码、机构名称、机构类型、犯罪发生的城市和州、犯罪发生的年份和月份、事件数量、犯罪类型、犯罪是否解决、受害者性别、受害者年龄、受害者种族、受害者族裔、犯罪者性别、犯罪者年龄、犯罪者种族、犯罪者族裔、受害者和犯罪者之间的关系、犯罪使用的武器、受害者数量、犯罪者数量以及信息来源。
This dataset originates from the Murder Accountability Project and encompasses detailed reports of over 600,000 homicides occurring between 1980 and 2014. It amalgamates the FBI's Supplementary Homicide Reports with data on more than 22,000 homicides not officially reported to the Department of Justice, obtained through the Freedom of Information Act. The dataset provides comprehensive details for each homicide, including case record ID, agency code, agency name, agency type, city and state of the crime, year and month of the crime, number of incidents, type of crime, whether the crime was solved, victim's gender, victim's age, victim's race, victim's ethnicity, perpetrator's gender, perpetrator's age, perpetrator's race, perpetrator's ethnicity, relationship between victim and perpetrator, weapon used in the crime, number of victims, number of perpetrators, and the source of information.
创建时间:
2024-05-07
原始信息汇总
数据集概述
数据集来源
- 数据集源自Murder Accountability Project,下载自Kaggle,包含超过600,000起美国凶杀案件记录,时间跨度为1980至2014年。
数据集内容
- 基本信息:
- Record ID: 每起犯罪的ID。
- Agency Code: 机构代码。
- Agency Name: 机构名称。
- Agency Type: 报告机构类型。
- City: 犯罪发生的城市。
- State: 犯罪发生的州。
- Year: 犯罪发生的年份。
- Month: 犯罪发生的月份。
- Incident: 事件数量。
- Crime Type: 犯罪类型(谋杀或过失杀人)。
- Crime Solved: 犯罪是否解决(是或否)。
- 受害者信息:
- Victim Sex: 受害者性别(男或女)。
- Victim Age: 受害者年龄。
- Victim Race: 受害者种族。
- Victim Ethnicity: 受害者民族。
- 犯罪者信息:
- Perpetrator Sex: 犯罪者性别(男或女)。
- Perpetrator Age: 犯罪者年龄。
- Perpetrator Race: 犯罪者种族。
- Perpetrator Ethnicity: 犯罪者民族。
- 其他信息:
- Relationship: 受害者与犯罪者之间的关系。
- Weapon: 使用的武器。
- Victim Count: 受害者数量。
- Perpetrator Count: 犯罪者数量。
- Record Source: 信息来源。
数据集用途
- 用于探索和应用多种机器学习模型预测犯罪是否解决,通过探索性数据分析和多模型实施,增强对影响犯罪解决因素的理解。
数据集分析
- 探索性数据分析(EDA):
- 分析了数值变量和分类变量之间的关系和相关性。
- 数值变量分析显示,犯罪者年龄与犯罪解决可能性之间存在强正相关(Spearman相关系数为0.74)。
- 分类变量分析通过Chi-Square分析揭示了犯罪者性别、受害者与犯罪者关系等因素与犯罪解决之间的显著关联。
- 机器学习模型:
- 应用了Logistic Regression、Random Forest、XGBoost和Decision Tree等模型预测犯罪解决情况。
- 模型评估基于准确性、精确度、召回率、F1分数和ROC曲线下面积(AUC)等指标。
结论
- 所有模型表现良好,XGBoost和Random Forest因集成方法而表现出略高的整体性能。
- Logistic Regression和Decision Tree模型虽准确性稍低,但提供了更高的可解释性,对政策制定和战略决策至关重要。
搜集汇总
数据集介绍

构建方式
该数据集源自Murder Accountability Project,由Thomas Hargrove领导,旨在提升美国凶杀案数据的透明度和司法效能。数据集整合了FBI的补充凶杀报告,涵盖1976年至今的详细记录,并包括通过《信息自由法》获取的未正式报告给司法部的22,000多起凶杀案。数据集从Kaggle下载,包含1980年至2014年间超过600,000起案件,提供了每起案件的详细信息,如记录ID、机构代码、城市、州、年份、月份、犯罪类型、是否解决等。
特点
该数据集以其全面性和详细性著称,涵盖了从犯罪发生地到犯罪者与受害者详细信息的广泛维度。其独特之处在于不仅包括官方报告,还纳入了通过《信息自由法》获取的未报告案件,增强了数据的完整性和代表性。此外,数据集的细致分类和多维度分析潜力,使其成为研究犯罪学和社会学的重要资源。
使用方法
数据集适用于多种分析和建模任务,特别是在预测犯罪是否解决方面。用户可以通过下载数据集并使用Python等编程语言进行数据预处理、探索性数据分析(EDA)和模型训练。建议使用如Logistic Regression、Random Forest、XGBoost和Decision Tree等机器学习模型进行预测分析。通过调整模型参数和评估指标如准确率、精确率、召回率和AUC,用户可以优化模型性能并进行深入分析。
背景与挑战
背景概述
美国凶杀报告数据集(US Homicide Reports)是由Murder Accountability Project项目汇编的,旨在提高美国凶杀率和司法效能的透明度。该数据集涵盖了1980年至2014年间超过60万起凶杀案件,整合了FBI的补充凶杀报告和通过《信息自由法》获取的未正式报告的案件。由Thomas Hargrove领导的这一项目强调了开放数据在解决社会问题和增强刑事司法问责制中的重要性。数据集详细记录了每起案件的多个关键细节,包括犯罪者和受害者的性别、年龄、种族、关系以及使用的武器等,为研究犯罪解决因素提供了丰富的信息源。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源多样,包括官方报告和非正式渠道,确保数据的一致性和准确性是一大难题。其次,数据集包含大量变量,如犯罪者和受害者的详细信息,这些变量之间的复杂关系增加了数据分析的难度。此外,数据集的时间跨度长,涉及多个年代的社会背景变化,这要求研究者在分析时考虑历史和社会因素的影响。在应用机器学习模型预测犯罪结果时,如何避免模型因种族和民族信息导致的偏见,确保模型的伦理性和公正性,也是一项重大挑战。
常用场景
经典使用场景
在犯罪学与社会安全领域,US Homicide Reports数据集被广泛用于探索和预测犯罪解决率。通过整合美国各州从1980年至2014年的超过60万起凶杀案件详细记录,该数据集为研究人员提供了丰富的变量信息,如犯罪类型、受害者与加害者的性别、年龄、种族等。这些详细数据使得机器学习模型能够深入分析影响犯罪解决的关键因素,从而为政策制定者和执法机构提供科学的决策支持。
实际应用
在实际应用中,US Homicide Reports数据集为执法机构和政策制定者提供了重要的工具。通过分析历史数据,执法部门可以识别高风险区域和群体,优化资源分配,提高犯罪预防和解决效率。此外,数据集还支持开发智能警务系统,通过实时数据分析和预测模型,帮助警方快速响应和处理犯罪事件。这些应用不仅提升了公共安全水平,还增强了社会对执法机构的信任。
衍生相关工作
US Homicide Reports数据集的发布催生了多项相关研究和工作。例如,基于该数据集的机器学习模型研究,不仅提升了犯罪预测的准确性,还推动了算法伦理和公平性的讨论。此外,数据集的公开性激发了跨学科的合作,如社会学、计算机科学和法律领域的学者共同探讨数据驱动的社会治理模式。这些衍生工作进一步扩展了数据集的应用范围,推动了犯罪学和社会安全领域的创新发展。
以上内容由遇见数据集搜集并总结生成



