five

mstz/compas

收藏
Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/compas
下载链接
链接失效反馈
官方服务:
资源简介:
Compas数据集用于预测累犯,该数据集已知存在种族偏见问题。数据集包含多个配置和任务,如编码、两年内累犯预测、两年内累犯预测(去除种族特征)、前科预测、前科预测(去除种族特征)和种族分类。数据集的特征包括性别、年龄、种族、青少年重罪数量、犯罪性评分、青少年轻罪数量、其他青少年犯罪数量、前科数量、筛查逮捕前的天数、是否累犯、在押天数、是否暴力累犯、暴力犯罪性评分和两年内是否累犯等。

Compas数据集用于预测累犯,该数据集已知存在种族偏见问题。数据集包含多个配置和任务,如编码、两年内累犯预测、两年内累犯预测(去除种族特征)、前科预测、前科预测(去除种族特征)和种族分类。数据集的特征包括性别、年龄、种族、青少年重罪数量、犯罪性评分、青少年轻罪数量、其他青少年犯罪数量、前科数量、筛查逮捕前的天数、是否累犯、在押天数、是否暴力累犯、暴力犯罪性评分和两年内是否累犯等。
提供机构:
mstz
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 标签:
    • compas
    • tabular_classification
    • binary_classification
    • UCI
  • 美观名称: Compas
  • 大小分类: 1K<n<10K
  • 任务分类: tabular-classification
  • 配置:
    • encoding
    • two-years-recidividity
    • two-years-recidividity-no-race
    • priors-prediction
    • priors-prediction-no-race
    • race
  • 许可证: cc

配置与任务

配置 任务 描述
encoding 编码字典,显示编码特征的原始值。
two-years-recidividity 二元分类 被告是否会成为暴力累犯?
two-years-recidividity-no-race 二元分类 如上,但移除了race特征。
priors-prediction 回归 被告已犯有多少次前科?
priors-prediction-no-race 二元分类 如上,但移除了race特征。
race 多类分类 被告的种族是什么?

特征

特征 类型 描述
sex int64 性别
age int64 年龄
race int64 种族
number_of_juvenile_fellonies int64 少年重罪次数
decile_score int64 犯罪评分
number_of_juvenile_misdemeanors int64 少年轻罪次数
number_of_other_juvenile_offenses int64 其他少年犯罪次数
number_of_prior_offenses int64 前科次数
days_before_screening_arrest int64 筛选逮捕前的天数
is_recidivous int64 是否累犯
days_in_custody int64 监禁天数
is_violent_recidivous int64 是否暴力累犯
violence_decile_score int64 暴力犯罪评分
two_years_recidivous int64 两年内是否累犯
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建以美国犯罪与再犯预测为背景,整合了被告人的性别、年龄、种族、犯罪历史等个人信息,以及再犯与否的结果。数据集通过编码字典对特征值进行编码处理,并根据不同的配置提供不同类型的数据集,如包含或不包含种族信息,以及针对再犯与否的二分类任务或针对犯罪次数的回归任务。
特点
Compas数据集的特点在于其包含了多种类型的任务配置,支持二分类、多分类及回归任务。数据集具有潜在的种族偏见问题,已在相关文章中指出。此外,数据集规模适中,便于处理和测试模型性能。各个特征的详细描述,如性别、年龄、犯罪历史等,为模型训练提供了丰富的信息。
使用方法
使用该数据集时,首先需要通过HuggingFace的datasets库加载相应的配置,如`two-years-recidividity`。加载后,用户可以根据需要选择训练集、测试集或验证集进行模型训练和评估。数据集的加载过程简单直观,便于研究人员快速开展相关研究工作。
背景与挑战
背景概述
Compas数据集是一项用于预测累犯可能性的研究工具,其创建旨在通过数据分析预测被告是否会成为暴力累犯。该数据集起源于犯罪司法领域,由Propublica机构在2016年提出,并因其在预测累犯风险时存在的种族偏见问题而备受争议。数据集的核心研究问题聚焦于评估个体的再犯风险,其对刑事司法系统中风险评估工具的公正性及准确性的研究产生了深远影响。
当前挑战
Compas数据集面临的挑战主要涉及两个方面:一是数据集在预测领域问题中,如何公正无偏地评估不同种族的个体再犯风险;二是构建过程中,数据集的构建者需要解决如何有效编码特征,以及在不考虑种族因素的情况下,如何保持模型的预测性能。此外,数据集的多样性和代表性的问题也是当前研究者和实践者需要关注的挑战之一。
常用场景
经典使用场景
在刑事司法领域,mstz/compas数据集的经典使用场景是对犯罪分子再犯风险评估。该数据集通过被告人的性别、年龄、种族、犯罪历史等特征,预测其在未来两年内是否会再次犯下暴力犯罪,为司法决策提供参考。
解决学术问题
mstz/compas数据集解决了刑事司法中再犯风险评估的学术问题,特别是在消除种族偏见方面。该数据集及其变体允许研究者探讨不同配置下模型预测的公正性,为算法透明度和公平性提供了研究基础。
衍生相关工作
基于mstz/compas数据集,衍生出了一系列相关研究工作,包括对数据集公平性的评估、算法偏见的检测方法,以及改进的预测模型。这些研究推动了刑事司法中算法使用的伦理标准和实践指南的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作