jarrydmartinx/recid
收藏Hugging Face2023-04-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jarrydmartinx/recid
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: black
dtype: int64
- name: alcohol
dtype: int64
- name: drugs
dtype: int64
- name: super
dtype: int64
- name: married
dtype: int64
- name: felon
dtype: int64
- name: workprg
dtype: int64
- name: property
dtype: int64
- name: person
dtype: int64
- name: priors
dtype: int64
- name: educ
dtype: int64
- name: rules
dtype: int64
- name: age
dtype: int64
- name: tserved
dtype: int64
- name: follow
dtype: int64
- name: event_time
dtype: int64
- name: event_indicator
dtype: int64
splits:
- name: train
num_bytes: 196520
num_examples: 1445
download_size: 27921
dataset_size: 196520
---
# Dataset Card for "recid"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 特征名:黑人(black),数据类型:int64
- 特征名:酗酒史(alcohol),数据类型:int64
- 特征名:吸毒史(drugs),数据类型:int64
- 特征名:监管状态(super),数据类型:int64
- 特征名:婚姻状况(married),数据类型:int64
- 特征名:重罪犯身份(felon),数据类型:int64
- 特征名:就业培训项目参与情况(workprg),数据类型:int64
- 特征名:财产犯罪史(property),数据类型:int64
- 特征名:个人信息(person),数据类型:int64
- 特征名:前科次数(priors),数据类型:int64
- 特征名:受教育年限(educ),数据类型:int64
- 特征名:监管规则违反次数(rules),数据类型:int64
- 特征名:年龄(age),数据类型:int64
- 特征名:服刑时长(tserved),数据类型:int64
- 特征名:随访时长(follow),数据类型:int64
- 特征名:事件发生时间(event_time),数据类型:int64
- 特征名:事件发生指示器(event_indicator),数据类型:int64
数据集划分:
- 划分名称:训练集(train),数据字节量:196520,样本数量:1445
下载大小:27921
数据集总存储大小:196520
# “累犯(recid)”数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
jarrydmartinx
原始信息汇总
数据集概述
数据集特征
- black:数据类型为 int64
- alcohol:数据类型为 int64
- drugs:数据类型为 int64
- super:数据类型为 int64
- married:数据类型为 int64
- felon:数据类型为 int64
- workprg:数据类型为 int64
- property:数据类型为 int64
- person:数据类型为 int64
- priors:数据类型为 int64
- educ:数据类型为 int64
- rules:数据类型为 int64
- age:数据类型为 int64
- tserved:数据类型为 int64
- follow:数据类型为 int64
- event_time:数据类型为 int64
- event_indicator:数据类型为 int64
数据集划分
- train:包含1445个样本,数据集大小为196520字节
数据集大小
- 下载大小:27921字节
- 数据集总大小:196520字节
搜集汇总
数据集介绍

构建方式
在刑事司法研究领域,数据集的构建往往依赖于对历史案例的系统性整理。该数据集通过收集并结构化1445个样本的个体特征与行为记录,涵盖了种族、物质使用、婚姻状况、犯罪前科、教育水平及服刑时间等16个关键变量。每个样本均以数值形式编码,确保了数据的可量化分析,同时通过事件时间与事件指示器字段,为生存分析提供了基础。数据集的构建过程注重变量的全面性与一致性,为研究再犯风险提供了多维度的观察视角。
特点
该数据集的特点体现在其专注于再犯预测的生存分析框架。变量设计涵盖了社会人口学特征、犯罪历史及行为因素,如种族、毒品使用、前科数量等,能够全面反映个体风险轮廓。事件时间与事件指示器的引入,使得数据集支持时间至事件的分析方法,适用于评估再犯风险的动态变化。数据以结构化表格形式呈现,便于机器学习模型的直接应用,同时样本量适中,兼顾了分析的深度与计算效率。
使用方法
在应用该数据集时,研究者可将其导入数据分析环境,如Python的Pandas或R语言,进行探索性分析与模型训练。数据集适用于逻辑回归、生存分析模型或机器学习算法,以预测个体再犯概率或分析风险因素的时间效应。使用前需检查数据完整性,并考虑变量间的共线性问题。通过划分训练集与测试集,可评估模型的泛化性能,为刑事司法政策制定提供实证依据。
背景与挑战
背景概述
在刑事司法与犯罪学领域,准确预测累犯风险对于制定有效的矫正政策至关重要。数据集'jarrydmartinx/recid'应运而生,其创建旨在通过结构化数据,探索个体特征与再犯罪行为之间的复杂关联。该数据集收录了包括种族、物质滥用史、婚姻状况、犯罪前科及教育水平等多维度特征,并引入了生存分析中的事件时间与指示变量,为量化累犯风险提供了实证基础。尽管具体创建时间与主要研究人员信息在现有资料中尚未明确,但其核心研究问题聚焦于利用机器学习模型评估再犯罪概率,从而辅助司法决策,对推动犯罪预测模型的透明化与公平性具有潜在影响力。
当前挑战
该数据集所针对的累犯预测问题,本身面临着多重挑战:刑事司法数据常隐含社会偏见,如种族或社会经济因素可能被模型误读为因果关联,导致预测结果加剧系统性不公;同时,累犯事件受到法律变动、社会环境等未观测变量的干扰,使得模型泛化能力受限。在构建过程中,挑战同样显著:特征选择需平衡隐私保护与研究需求,例如敏感属性如种族或药物使用记录的收集可能引发伦理争议;数据完整性亦成问题,司法记录常存在缺失或不一致,需通过复杂预处理确保可靠性,这对数据集的代表性与实用性构成了直接考验。
常用场景
经典使用场景
在刑事司法与社会科学领域,jarrydmartinx/recid数据集为研究累犯预测提供了关键实证基础。该数据集通过整合个体的人口统计学特征、犯罪历史、行为模式及社会干预记录,构建了一个多维度的生存分析框架。经典使用场景聚焦于利用Cox比例风险模型或机器学习算法,评估不同因素对累犯风险的时序影响,从而揭示再犯行为的动态规律。
实际应用
在实际应用中,该数据集被司法部门用于优化假释与监督决策系统。通过分析个体特征与累犯风险的关联,可构建风险评分工具,辅助法官和假释官进行个性化评估。同时,社会服务机构利用其识别高风险群体,针对性分配康复资源,如物质滥用治疗或职业培训,从而降低再犯率并提升公共安全。
衍生相关工作
基于此数据集衍生的经典工作包括对种族偏见的量化研究,例如探究‘black’变量在预测模型中的公平性影响。此外,学者们开发了融合时变协变量的深度学习生存模型,提升了长期预测的准确性。这些研究进一步拓展至政策模拟领域,评估不同司法改革方案对累犯率的潜在效应。
以上内容由遇见数据集搜集并总结生成



