five

jarrydmartinx/recid

收藏
Hugging Face2023-04-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jarrydmartinx/recid
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: black dtype: int64 - name: alcohol dtype: int64 - name: drugs dtype: int64 - name: super dtype: int64 - name: married dtype: int64 - name: felon dtype: int64 - name: workprg dtype: int64 - name: property dtype: int64 - name: person dtype: int64 - name: priors dtype: int64 - name: educ dtype: int64 - name: rules dtype: int64 - name: age dtype: int64 - name: tserved dtype: int64 - name: follow dtype: int64 - name: event_time dtype: int64 - name: event_indicator dtype: int64 splits: - name: train num_bytes: 196520 num_examples: 1445 download_size: 27921 dataset_size: 196520 --- # Dataset Card for "recid" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征字段: - 特征名:黑人(black),数据类型:int64 - 特征名:酗酒史(alcohol),数据类型:int64 - 特征名:吸毒史(drugs),数据类型:int64 - 特征名:监管状态(super),数据类型:int64 - 特征名:婚姻状况(married),数据类型:int64 - 特征名:重罪犯身份(felon),数据类型:int64 - 特征名:就业培训项目参与情况(workprg),数据类型:int64 - 特征名:财产犯罪史(property),数据类型:int64 - 特征名:个人信息(person),数据类型:int64 - 特征名:前科次数(priors),数据类型:int64 - 特征名:受教育年限(educ),数据类型:int64 - 特征名:监管规则违反次数(rules),数据类型:int64 - 特征名:年龄(age),数据类型:int64 - 特征名:服刑时长(tserved),数据类型:int64 - 特征名:随访时长(follow),数据类型:int64 - 特征名:事件发生时间(event_time),数据类型:int64 - 特征名:事件发生指示器(event_indicator),数据类型:int64 数据集划分: - 划分名称:训练集(train),数据字节量:196520,样本数量:1445 下载大小:27921 数据集总存储大小:196520 # “累犯(recid)”数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
jarrydmartinx
原始信息汇总

数据集概述

数据集特征

  • black:数据类型为 int64
  • alcohol:数据类型为 int64
  • drugs:数据类型为 int64
  • super:数据类型为 int64
  • married:数据类型为 int64
  • felon:数据类型为 int64
  • workprg:数据类型为 int64
  • property:数据类型为 int64
  • person:数据类型为 int64
  • priors:数据类型为 int64
  • educ:数据类型为 int64
  • rules:数据类型为 int64
  • age:数据类型为 int64
  • tserved:数据类型为 int64
  • follow:数据类型为 int64
  • event_time:数据类型为 int64
  • event_indicator:数据类型为 int64

数据集划分

  • train:包含1445个样本,数据集大小为196520字节

数据集大小

  • 下载大小:27921字节
  • 数据集总大小:196520字节
搜集汇总
数据集介绍
main_image_url
构建方式
在刑事司法研究领域,数据集的构建往往依赖于对历史案例的系统性整理。该数据集通过收集并结构化1445个样本的个体特征与行为记录,涵盖了种族、物质使用、婚姻状况、犯罪前科、教育水平及服刑时间等16个关键变量。每个样本均以数值形式编码,确保了数据的可量化分析,同时通过事件时间与事件指示器字段,为生存分析提供了基础。数据集的构建过程注重变量的全面性与一致性,为研究再犯风险提供了多维度的观察视角。
特点
该数据集的特点体现在其专注于再犯预测的生存分析框架。变量设计涵盖了社会人口学特征、犯罪历史及行为因素,如种族、毒品使用、前科数量等,能够全面反映个体风险轮廓。事件时间与事件指示器的引入,使得数据集支持时间至事件的分析方法,适用于评估再犯风险的动态变化。数据以结构化表格形式呈现,便于机器学习模型的直接应用,同时样本量适中,兼顾了分析的深度与计算效率。
使用方法
在应用该数据集时,研究者可将其导入数据分析环境,如Python的Pandas或R语言,进行探索性分析与模型训练。数据集适用于逻辑回归、生存分析模型或机器学习算法,以预测个体再犯概率或分析风险因素的时间效应。使用前需检查数据完整性,并考虑变量间的共线性问题。通过划分训练集与测试集,可评估模型的泛化性能,为刑事司法政策制定提供实证依据。
背景与挑战
背景概述
在刑事司法与犯罪学领域,准确预测累犯风险对于制定有效的矫正政策至关重要。数据集'jarrydmartinx/recid'应运而生,其创建旨在通过结构化数据,探索个体特征与再犯罪行为之间的复杂关联。该数据集收录了包括种族、物质滥用史、婚姻状况、犯罪前科及教育水平等多维度特征,并引入了生存分析中的事件时间与指示变量,为量化累犯风险提供了实证基础。尽管具体创建时间与主要研究人员信息在现有资料中尚未明确,但其核心研究问题聚焦于利用机器学习模型评估再犯罪概率,从而辅助司法决策,对推动犯罪预测模型的透明化与公平性具有潜在影响力。
当前挑战
该数据集所针对的累犯预测问题,本身面临着多重挑战:刑事司法数据常隐含社会偏见,如种族或社会经济因素可能被模型误读为因果关联,导致预测结果加剧系统性不公;同时,累犯事件受到法律变动、社会环境等未观测变量的干扰,使得模型泛化能力受限。在构建过程中,挑战同样显著:特征选择需平衡隐私保护与研究需求,例如敏感属性如种族或药物使用记录的收集可能引发伦理争议;数据完整性亦成问题,司法记录常存在缺失或不一致,需通过复杂预处理确保可靠性,这对数据集的代表性与实用性构成了直接考验。
常用场景
经典使用场景
在刑事司法与社会科学领域,jarrydmartinx/recid数据集为研究累犯预测提供了关键实证基础。该数据集通过整合个体的人口统计学特征、犯罪历史、行为模式及社会干预记录,构建了一个多维度的生存分析框架。经典使用场景聚焦于利用Cox比例风险模型或机器学习算法,评估不同因素对累犯风险的时序影响,从而揭示再犯行为的动态规律。
实际应用
在实际应用中,该数据集被司法部门用于优化假释与监督决策系统。通过分析个体特征与累犯风险的关联,可构建风险评分工具,辅助法官和假释官进行个性化评估。同时,社会服务机构利用其识别高风险群体,针对性分配康复资源,如物质滥用治疗或职业培训,从而降低再犯率并提升公共安全。
衍生相关工作
基于此数据集衍生的经典工作包括对种族偏见的量化研究,例如探究‘black’变量在预测模型中的公平性影响。此外,学者们开发了融合时变协变量的深度学习生存模型,提升了长期预测的准确性。这些研究进一步拓展至政策模拟领域,评估不同司法改革方案对累犯率的潜在效应。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作