imodels/compas-recidivism

Name: imodels/compas-recidivism
Creator: imodels
Published: 2022-08-13 04:17:29
License: 暂无描述

Hugging Face2022-08-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/imodels/compas-recidivism

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从ProPublica的compas-recidivism数据集移植而来，主要用于表格分类任务，目标变量是二元结果`is_recid`。数据集由imodels团队进行了基本预处理，并提供了加载数据、拟合模型和评估模型的示例代码。

This dataset is adapted from the ProPublica compas-recidivism dataset, and is primarily used for tabular classification tasks, where the target variable is the binary outcome `is_recid`. The dataset has undergone basic preprocessing by the imodels team, and example code for loading data, fitting models and evaluating models is provided.

提供机构：

imodels

原始信息汇总

数据集概述

基本信息

数据集名称: compas-recidivism
数据集大小: 1K<n<10K
任务类别: 表格分类
标签:
- 可解释性
- 公平性

目标变量

目标变量: is_recid

使用示例

数据加载: python from datasets import load_dataset dataset = load_dataset("imodels/compas-recidivism") df = pd.DataFrame(dataset[train]) X = df.drop(columns=[is_recid]) y = df[is_recid].values
模型训练: python import imodels import numpy as np m = imodels.FIGSClassifier(max_rules=5) m.fit(X, y) print(m)
模型评估: python df_test = pd.DataFrame(dataset[test]) X_test = df.drop(columns=[is_recid]) y_test = df[is_recid].values print(accuracy, np.mean(m.predict(X_test) == y_test))

搜集汇总

数据集介绍

构建方式

在刑事司法领域，风险评估工具的应用日益广泛，imodels/compas-recidivism数据集正是这一背景下的产物。该数据集源自ProPublica对COMPAS系统的深入分析，原始数据经过imodels团队的基本预处理，包括数据清洗与格式转换，旨在构建一个适用于表格分类任务的标准化资源。其构建过程注重保留原始数据的结构，同时将目标变量设定为二元结果is_recid，以反映再犯预测的核心问题。

特点

该数据集在机器学习可解释性与公平性研究中具有显著价值，其规模介于一千至一万条记录之间，专为表格分类任务设计。数据集蕴含已知的社会影响与偏见，这为研究算法公平性提供了关键案例。特征维度涵盖了与再犯预测相关的多项变量，使得研究者能够深入探索模型决策过程与社会偏见之间的复杂关联。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，并转换为Pandas DataFrame以进行后续分析。典型流程包括分离特征与目标变量，随后利用如imodels库中的可解释模型进行训练与评估。数据分为训练集与测试集，支持模型性能的准确度计算，为公平机器学习研究提供了一套完整且可复现的实验框架。

背景与挑战

背景概述

COMPAS再犯预测数据集源于2016年ProPublica新闻机构的开创性调查，旨在揭示刑事司法系统中算法决策的潜在偏见。该数据集由研究人员和记者共同构建，聚焦于评估COMPAS风险评估工具在预测被告人再犯风险时的公平性与透明度。其核心研究问题在于探究算法模型是否在不同种族群体间存在系统性偏差，从而推动了计算社会科学与算法伦理领域的交叉研究，对促进机器学习在司法领域的可解释性与公平性标准产生了深远影响。

当前挑战

该数据集所针对的领域挑战在于，如何在刑事司法风险评估中构建既准确又公平的机器学习模型，同时避免算法放大社会固有偏见。构建过程中的挑战包括原始数据的不完整性、敏感属性（如种族）与预测目标的复杂关联，以及数据预处理时如何平衡统计效用与伦理考量。此外，数据集的有限规模和静态特性也制约了其在动态社会环境中的泛化能力，使得模型评估与偏差缓解策略的验证面临持续挑战。

常用场景

经典使用场景

在司法风险评估领域，COMPAS再犯数据集常被用于构建和验证预测模型，以评估个体在未来一定时间内再次犯罪的可能性。研究者利用该数据集中的结构化特征，如年龄、犯罪历史、社会背景等，训练分类算法，旨在实现精准的风险等级划分。这一过程不仅涉及机器学习技术的应用，更强调模型在复杂社会系统中的可靠性与稳定性，为后续的司法决策提供数据驱动的参考依据。

衍生相关工作

围绕COMPAS数据集，学术界衍生了一系列经典研究，如ProPublica团队关于算法偏见的开创性分析，揭示了预测模型在不同种族群体间的差异表现。后续工作进一步拓展至公平性约束下的模型训练、可解释规则提取方法（如FIGS分类器）的开发，以及偏差缓解技术的比较评估。这些研究共同推动了负责任人工智能在司法领域的理论进展与实践规范。

数据集最近研究