five

mstz/compas|再犯预测数据集|种族偏见数据集

收藏
hugging_face2023-04-23 更新2024-03-04 收录
再犯预测
种族偏见
下载链接:
https://hf-mirror.com/datasets/mstz/compas
下载链接
链接失效反馈
资源简介:
Compas数据集用于预测累犯,该数据集已知存在种族偏见问题。数据集包含多个配置和任务,如编码、两年内累犯预测、两年内累犯预测(去除种族特征)、前科预测、前科预测(去除种族特征)和种族分类。数据集的特征包括性别、年龄、种族、青少年重罪数量、犯罪性评分、青少年轻罪数量、其他青少年犯罪数量、前科数量、筛查逮捕前的天数、是否累犯、在押天数、是否暴力累犯、暴力犯罪性评分和两年内是否累犯等。

Compas数据集用于预测累犯,该数据集已知存在种族偏见问题。数据集包含多个配置和任务,如编码、两年内累犯预测、两年内累犯预测(去除种族特征)、前科预测、前科预测(去除种族特征)和种族分类。数据集的特征包括性别、年龄、种族、青少年重罪数量、犯罪性评分、青少年轻罪数量、其他青少年犯罪数量、前科数量、筛查逮捕前的天数、是否累犯、在押天数、是否暴力累犯、暴力犯罪性评分和两年内是否累犯等。
提供机构:
mstz
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 标签:
    • compas
    • tabular_classification
    • binary_classification
    • UCI
  • 美观名称: Compas
  • 大小分类: 1K<n<10K
  • 任务分类: tabular-classification
  • 配置:
    • encoding
    • two-years-recidividity
    • two-years-recidividity-no-race
    • priors-prediction
    • priors-prediction-no-race
    • race
  • 许可证: cc

配置与任务

配置 任务 描述
encoding 编码字典,显示编码特征的原始值。
two-years-recidividity 二元分类 被告是否会成为暴力累犯?
two-years-recidividity-no-race 二元分类 如上,但移除了race特征。
priors-prediction 回归 被告已犯有多少次前科?
priors-prediction-no-race 二元分类 如上,但移除了race特征。
race 多类分类 被告的种族是什么?

特征

特征 类型 描述
sex int64 性别
age int64 年龄
race int64 种族
number_of_juvenile_fellonies int64 少年重罪次数
decile_score int64 犯罪评分
number_of_juvenile_misdemeanors int64 少年轻罪次数
number_of_other_juvenile_offenses int64 其他少年犯罪次数
number_of_prior_offenses int64 前科次数
days_before_screening_arrest int64 筛选逮捕前的天数
is_recidivous int64 是否累犯
days_in_custody int64 监禁天数
is_violent_recidivous int64 是否暴力累犯
violence_decile_score int64 暴力犯罪评分
two_years_recidivous int64 两年内是否累犯
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建以美国犯罪与再犯预测为背景,整合了被告人的性别、年龄、种族、犯罪历史等个人信息,以及再犯与否的结果。数据集通过编码字典对特征值进行编码处理,并根据不同的配置提供不同类型的数据集,如包含或不包含种族信息,以及针对再犯与否的二分类任务或针对犯罪次数的回归任务。
特点
Compas数据集的特点在于其包含了多种类型的任务配置,支持二分类、多分类及回归任务。数据集具有潜在的种族偏见问题,已在相关文章中指出。此外,数据集规模适中,便于处理和测试模型性能。各个特征的详细描述,如性别、年龄、犯罪历史等,为模型训练提供了丰富的信息。
使用方法
使用该数据集时,首先需要通过HuggingFace的datasets库加载相应的配置,如`two-years-recidividity`。加载后,用户可以根据需要选择训练集、测试集或验证集进行模型训练和评估。数据集的加载过程简单直观,便于研究人员快速开展相关研究工作。
背景与挑战
背景概述
Compas数据集是一项用于预测累犯可能性的研究工具,其创建旨在通过数据分析预测被告是否会成为暴力累犯。该数据集起源于犯罪司法领域,由Propublica机构在2016年提出,并因其在预测累犯风险时存在的种族偏见问题而备受争议。数据集的核心研究问题聚焦于评估个体的再犯风险,其对刑事司法系统中风险评估工具的公正性及准确性的研究产生了深远影响。
当前挑战
Compas数据集面临的挑战主要涉及两个方面:一是数据集在预测领域问题中,如何公正无偏地评估不同种族的个体再犯风险;二是构建过程中,数据集的构建者需要解决如何有效编码特征,以及在不考虑种族因素的情况下,如何保持模型的预测性能。此外,数据集的多样性和代表性的问题也是当前研究者和实践者需要关注的挑战之一。
常用场景
经典使用场景
在刑事司法领域,mstz/compas数据集的经典使用场景是对犯罪分子再犯风险评估。该数据集通过被告人的性别、年龄、种族、犯罪历史等特征,预测其在未来两年内是否会再次犯下暴力犯罪,为司法决策提供参考。
解决学术问题
mstz/compas数据集解决了刑事司法中再犯风险评估的学术问题,特别是在消除种族偏见方面。该数据集及其变体允许研究者探讨不同配置下模型预测的公正性,为算法透明度和公平性提供了研究基础。
衍生相关工作
基于mstz/compas数据集,衍生出了一系列相关研究工作,包括对数据集公平性的评估、算法偏见的检测方法,以及改进的预测模型。这些研究推动了刑事司法中算法使用的伦理标准和实践指南的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录