five

联邦调查局社区与犯罪非规范化数据集,可预测的犯罪属性(N=18)

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26000.html
下载链接
链接失效反馈
官方服务:
资源简介:
Data Set Information: 源数据集需要通过编程进行组合。包括许多变量,以便可以测试选择或学习属性权重的算法。然而,明显不相关的属性没有包括在内;如果与犯罪有任何可能的联系(N=125),加上犯罪变量(潜在因变量),则选择属性。数据集中包含的变量涉及社区,如被视为城市人口的百分比和家庭收入中位数,以及涉及执法的变量,如警察的人均人数和分配到毒品单位的警察的百分比。可以预测的犯罪属性(N=18)是联邦调查局认定的8种“指数犯罪”(谋杀、强奸、抢劫等)、每种犯罪的人均(实际上每100000人)版本以及人均暴力犯罪和人均非暴力犯罪)。 一个限制是,LEMAS调查的对象是至少有100名警官的警察部门,外加随机抽样的较小部门。出于我们的目的,省略了普查和犯罪数据集中未发现的社区。许多社区缺少LEMAS数据。 人均犯罪变量是使用1995年联邦调查局数据中的人口值(与1990年人口普查值不同)计算的。 人均暴力犯罪变量是使用人口和在美国被视为暴力犯罪的犯罪变量之和来计算的:谋杀、强奸、抢劫和袭击。显然,在一些州对强奸案的计数存在一些争议。这些导致强奸价值缺失,从而导致人均暴力犯罪价值缺失。许多被忽略的社区来自美国中西部(明尼苏达州、伊利诺伊州和密歇根州有许多这样的社区)。 人均非暴力犯罪变量是使用在美国被视为非暴力犯罪的犯罪变量之和来计算的:入室盗窃、盗窃、汽车盗窃和纵火。(还有许多其他类型的犯罪,仅包括FBI的“指数犯罪”) 必须对数据集进行进一步的预处理。从18个可能的变量中选择所需的因变量。将小计(如谋杀)作为自变量,预测总犯罪率(如暴力犯罪)既不有趣也不合适。还有一些识别变量(社区名称、县代码、社区代码)是不可预测的,并且会妨碍某些算法。Weka的无监督属性移除过滤器可用于移除不需要的属性。 联邦调查局指出,使用这些数据来评估社区过于简单,因为许多相关因素没有包括在内。例如,在其他条件相同的情况下,拥有大量游客的社区的人均犯罪率(以居民衡量)将高于游客较少的社区。 Attribute Information: (125 predictive, 4 non-predictive, 18 potential goal) -- communityname: Community name - not predictive - for information only (string) -- state: US state (by 2 letter postal abbreviation)(nominal) -- countyCode: numeric code for county - not predictive, and many missing values (numeric) -- communityCode: numeric code for community - not predictive and many missing values (numeric) -- fold: fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric - integer) -- population: population for community: (numeric - expected to be integer) -- householdsize: mean people per household (numeric - decimal) -- racepctblack: percentage of population that is african american (numeric - decimal) -- racePctWhite: percentage of population that is caucasian (numeric - decimal) -- racePctAsian: percentage of population that is of asian heritage (numeric - decimal) -- racePctHisp: percentage of population that is of hispanic heritage (numeric - decimal) -- agePct12t21: percentage of population that is 12-21 in age (numeric - decimal) -- agePct12t29: percentage of population that is 12-29 in age (numeric - decimal) -- agePct16t24: percentage of population that is 16-24 in age (numeric - decimal) -- agePct65up: percentage of population that is 65 and over in age (numeric - decimal) -- numbUrban: number of people living in areas classified as urban (numeric - expected to be integer) -- pctUrban: percentage of people living in areas classified as urban (numeric - decimal) -- medIncome: median household income (numeric - may be integer) -- pctWWage: percentage of households with wage or salary income in 1989 (numeric - decimal) -- pctWFarmSelf: percentage of households with farm or self employment income in 1989 (numeric - decimal) -- pctWInvInc: percentage of households with investment / rent income in 1989 (numeric - decimal) -- pctWSocSec: percentage of households with social security income in 1989 (numeric - decimal) -- pctWPubAsst: percentage of households with public assistance income in 1989 (numeric - decimal) -- pctWRetire: percentage of households with retirement income in 1989 (numeric - decimal) -- medFamInc: median family income (differs from household income for non-family households) (numeric - may be integer) -- perCapInc: per capita income (numeric - decimal) -- whitePerCap: per capita income for caucasians (numeric - decimal) -- blackPerCap: per capita income for african americans (numeric - decimal) -- indianPerCap: per capita income for native americans (numeric - decimal) -- AsianPerCap: per capita income for people with asian heritage (numeric - decimal) -- OtherPerCap: per capita income for people with 'other' heritage (numeric - decimal) -- HispPerCap: per capita income for people with hispanic heritage (numeric - decimal) -- NumUnderPov: number of people under the poverty level (numeric - expected to be integer) -- PctPopUnderPov: percentage of people under the poverty level (numeric - decimal) -- PctLess9thGrade: percentage of people 25 and over with less than a 9th grade education (numeric - decimal) -- PctNotHSGrad: percentage of people 25 and over that are not high school graduates (numeric - decimal) -- PctBSorMore: percentage of people 25 and over with a bachelors degree or higher education (numeric - decimal) -- PctUnemployed: percentage of people 16 and over, in the labor force, and unemployed (numeric - decimal) -- PctEmploy: percentage of people 16 and over who are employed (numeric - decimal) -- PctEmplManu: percentage of people 16 and over who are employed in manufacturing (numeric - decimal) -- PctEmplProfServ: percentage of people 16 and over who are employed in professional services (numeric - decimal) -- PctOccupManu: percentage of people 16 and over who are employed in manufacturing (numeric - decimal) #### No longer sure of difference from PctEmplManu - may include unemployed manufacturing workers #### -- PctOccupMgmtProf: percentage of people 16 and over who are employed in management or professional occupations (numeric - decimal) -- MalePctDivorce: percentage of males who are divorced (numeric - decimal) -- MalePctNevMarr: percentage of males who have never married (numeric - decimal) -- FemalePctDiv: percentage of females who are divorced (numeric - decimal) -- TotalPctD -- Creator: Michael Redmond (redmond 'at' lasalle.edu); Computer Science; La Salle University; Philadelphia, PA, 19141, USA -- culled from 1990 US Census, 1995 US FBI Uniform Crime Report, 1990 US Law Enforcement Management and Administrative Statistics Survey, available from ICPSR at U of Michigan. -- Donor: Michael Redmond (redmond 'at' lasalle.edu); Computer Science; La Salle University; Philadelphia, PA, 19141, USA

数据集信息:本源数据集需通过编程进行组合。其包含大量变量,可用于测试属性选择或属性权重学习类算法。本数据集未纳入明显无关的属性;仅选取与犯罪存在潜在关联的属性(样本量N=125),以及作为潜在因变量的犯罪相关变量。数据集涵盖的变量涉及社区特征(如城市人口占比、家庭收入中位数)与执法相关指标(如人均警力数、分配至毒品专案组的警员占比)。可用于预测的犯罪属性共18项(N=18),包含美国联邦调查局(FBI)认定的8类“指数犯罪”(谋杀、强奸、抢劫等)、各类犯罪的人均(实际为每10万人)案发率,以及人均暴力犯罪率和人均非暴力犯罪率。 本数据集存在一项限制:Law Enforcement Management and Administrative Statistics(LEMAS)调查的对象为至少配备100名警员的警署,以及随机抽取的小型警署。出于研究目的,本数据集剔除了普查数据与犯罪数据中未匹配的社区。大量社区因缺失LEMAS数据被排除。 人均犯罪变量基于1995年联邦调查局的人口数据(与1990年人口普查数据不同)计算得到。人均暴力犯罪率通过人口与美国认定的暴力犯罪(谋杀、强奸、抢劫与袭击)的案发数之和计算得出。需注意,部分州对强奸案的统计口径存在争议,这导致部分强奸案发率数据缺失,进而造成对应人均暴力犯罪率数据缺失。大量被剔除的社区来自美国中西部地区(明尼苏达州、伊利诺伊州与密歇根州存在较多此类社区)。 人均非暴力犯罪率通过美国认定的非暴力犯罪(入室盗窃、盗窃、汽车盗窃与纵火)的案发数之和计算得出(联邦调查局的“指数犯罪”仅包含上述部分犯罪类型,尚有其他犯罪未纳入)。 需对数据集进行进一步预处理:从18个潜在因变量中选取目标因变量。若将细分犯罪(如谋杀案发数)作为自变量预测总犯罪率(如暴力犯罪率),既缺乏研究价值也不符合逻辑。此外,部分识别变量(社区名称、县代码、社区代码)不具备预测性,且会干扰部分算法的运行,可使用Weka的无监督属性移除过滤器剔除此类无关属性。 美国联邦调查局指出,直接使用本数据集评估社区治安状况过于简化,因为诸多相关因素未被纳入考量。例如,在其他条件一致的情况下,拥有大量游客的社区,以常住人口计算的人均犯罪率会高于游客较少的社区。 属性信息:(125个预测属性、4个非预测属性、18个潜在目标属性) -- communityname:社区名称——仅用于信息参考,不具备预测性(字符串类型) -- state:美国州名(采用两位字母邮政缩写,标称型) -- countyCode:县数值代码——不具备预测性,且存在大量缺失值(数值型) -- communityCode:社区数值代码——不具备预测性,且存在大量缺失值(数值型) -- fold:非随机10折交叉验证的折数——可用于调试、配对检验,不具备预测性(数值型-整数) -- population:社区总人口(数值型,应为整数) -- householdsize:家庭平均人口数(数值型-小数) -- racepctblack:非裔美国人占总人口的百分比(数值型-小数) -- racePctWhite:白人占总人口的百分比(数值型-小数) -- racePctAsian:亚裔人口占总人口的百分比(数值型-小数) -- racePctHisp:西班牙裔人口占总人口的百分比(数值型-小数) -- agePct12t21:12-21岁人口占总人口的百分比(数值型-小数) -- agePct12t29:12-29岁人口占总人口的百分比(数值型-小数) -- agePct16t24:16-24岁人口占总人口的百分比(数值型-小数) -- agePct65up:65岁及以上人口占总人口的百分比(数值型-小数) -- numbUrban:居住在城市区域的人口数(数值型,应为整数) -- pctUrban:居住在城市区域的人口占比(数值型-小数) -- medIncome:家庭收入中位数(数值型,可为整数) -- pctWWage:1989年拥有工资或薪金收入的家庭占比(数值型-小数) -- pctWFarmSelf:1989年拥有农业或自营职业收入的家庭占比(数值型-小数) -- pctWInvInc:1989年拥有投资/租金收入的家庭占比(数值型-小数) -- pctWSocSec:1989年拥有社会保障收入的家庭占比(数值型-小数) -- pctWPubAsst:1989年拥有公共援助收入的家庭占比(数值型-小数) -- pctWRetire:1989年拥有退休收入的家庭占比(数值型-小数) -- medFamInc:家庭收入中位数(非家庭住户的家庭收入与住户收入存在差异,数值型,可为整数) -- perCapInc:人均收入(数值型-小数) -- whitePerCap:白人人均收入(数值型-小数) -- blackPerCap:非裔美国人人均收入(数值型-小数) -- indianPerCap:原住民人均收入(数值型-小数) -- AsianPerCap:亚裔人人均收入(数值型-小数) -- OtherPerCap:其他族裔人均收入(数值型-小数) -- HispPerCap:西班牙裔人人均收入(数值型-小数) -- NumUnderPov:处于贫困线以下的人口数(数值型,应为整数) -- PctPopUnderPov:处于贫困线以下的人口占比(数值型-小数) -- PctLess9thGrade:25岁及以上受教育程度低于9年级的人口占比(数值型-小数) -- PctNotHSGrad:25岁及以上未获得高中毕业证书的人口占比(数值型-小数) -- PctBSorMore:25岁及以上拥有学士学位或更高学历的人口占比(数值型-小数) -- PctUnemployed:16岁及以上处于劳动年龄且失业的人口占比(数值型-小数) -- PctEmploy:16岁及以上就业人口占比(数值型-小数) -- PctEmplManu:16岁及以上从事制造业工作的人口占比(数值型-小数) -- PctEmplProfServ:16岁及以上从事专业服务行业工作的人口占比(数值型-小数) -- PctOccupManu:16岁及以上从事制造业工作的人口占比(数值型-小数)#### 现已无法确认与PctEmplManu的区别——可能包含失业制造业从业者 #### -- PctOccupMgmtProf:16岁及以上从事管理或专业类职业的人口占比(数值型-小数) -- MalePctDivorce:离异男性占男性总人口的百分比(数值型-小数) -- MalePctNevMarr:从未结婚的男性占男性总人口的百分比(数值型-小数) -- FemalePctDiv:离异女性占女性总人口的百分比(数值型-小数) -- TotalPctD -- 数据集创建者:Michael Redmond(电子邮箱:redmond 'at' lasalle.edu);美国拉塞尔大学(La Salle University)计算机科学系;宾夕法尼亚州费城,19141 -- 数据源自1990年美国人口普查、1995年美国联邦调查局(FBI)统一犯罪报告,以及1990年美国执法管理与行政统计(Law Enforcement Management and Administrative Statistics, LEMAS)调查,相关数据可从密歇根大学国际政治和社会研究联合会(Inter-university Consortium for Political and Social Research, ICPSR)获取。 -- 数据集捐赠者:Michael Redmond(电子邮箱:redmond 'at' lasalle.edu);美国拉塞尔大学计算机科学系;宾夕法尼亚州费城,19141
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集整合了美国社区的人口统计、经济指标和犯罪统计数据,包含125个预测属性和18个犯罪相关目标变量,适用于犯罪预测模型开发和算法测试。数据来源权威但存在部分社区数据缺失的局限性,需要进一步预处理才能使用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务