COMPAS Recidivism Risk Score Data|犯罪风险评估数据集|司法决策数据集

www.propublica.org2024-10-29 收录

犯罪风险评估

司法决策

下载链接：

https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

下载链接

链接失效反馈

资源简介：

该数据集包含了COMPAS（Correctional Offender Management Profiling for Alternative Sanctions）系统生成的再犯风险评分数据。COMPAS是一种用于评估被告再犯风险的工具，数据集包括了被告的人口统计信息、犯罪历史、COMPAS评分等。

提供机构：

www.propublica.org

AI搜集汇总

数据集介绍

构建方式

COMPAS Recidivism Risk Score Data数据集的构建基于ProPublica对COMPAS系统的深入分析。该数据集收集了数千名被告的详细信息，包括年龄、性别、犯罪历史、社会经济状况等，并通过COMPAS算法计算出每位被告的再犯风险评分。数据收集过程严格遵循伦理和法律标准，确保信息的准确性和隐私保护。

使用方法

COMPAS Recidivism Risk Score Data数据集适用于多种研究目的，包括但不限于刑事司法系统的评估、算法公平性分析以及社会政策制定。研究者可以通过分析不同群体的风险评分差异，探讨算法在不同人群中的表现。使用时需注意数据的伦理和法律限制，确保研究过程的透明性和公正性。

背景与挑战

背景概述

COMPAS Recidivism Risk Score Data是由Northpointe公司开发的一个用于评估被告再犯风险的工具。该数据集的核心研究问题是如何通过算法预测被告在未来两年内是否会再次犯罪。自2016年首次公开以来，该数据集在法律和刑事司法领域引起了广泛关注，因其对司法决策的潜在影响而备受争议。主要研究人员和机构包括Northpointe公司及其合作伙伴，他们致力于通过数据驱动的方法提高司法系统的公正性和效率。

当前挑战

COMPAS Recidivism Risk Score Data在构建和应用过程中面临多重挑战。首先，数据集的准确性和公正性受到质疑，特别是在种族和性别偏见方面。其次，如何确保算法在预测再犯风险时的透明性和可解释性是一个重大难题。此外，数据集的更新和维护也是一个持续的挑战，以确保其能够反映最新的法律和社会动态。最后，如何在实际司法决策中平衡算法预测与人类判断，以避免过度依赖技术而忽视个体差异，也是一个亟待解决的问题。

发展历史

创建时间与更新

COMPAS Recidivism Risk Score Data数据集首次公开于2016年，由ProPublica在对其算法公平性进行调查时发布。此后，该数据集经历了多次更新，以反映最新的司法判决和风险评估实践。

重要里程碑

COMPAS Recidivism Risk Score Data的发布标志着算法在司法系统中的应用受到广泛关注。2016年，ProPublica的调查揭示了该数据集在种族平等方面存在的潜在偏见，引发了关于算法公平性和透明度的全球讨论。这一事件促使学术界和法律界对算法决策的伦理问题进行深入研究，推动了相关法规和指南的制定。

当前发展情况

当前，COMPAS Recidivism Risk Score Data已成为研究算法公平性和司法决策的重要资源。学术界利用该数据集进行多维度分析，以评估和改进风险评估模型的准确性和公正性。同时，政策制定者和法律专家也参考该数据集，推动司法系统的透明化和公正性。该数据集的持续使用和研究，对于促进算法伦理和司法公正具有重要意义。

发展历程

COMPAS Recidivism Risk Score Data首次由Northpointe公司发布，用于评估被告再次犯罪的风险。
2012年
ProPublica发布了一项调查报告，指出COMPAS评分系统在种族平等方面存在偏见，引发了广泛的公众讨论和学术研究。
2016年
Northpointe公司回应ProPublica的报告，发布了一份技术文档，详细解释了COMPAS评分系统的算法和设计原理。
2017年
学术界开始对COMPAS数据集进行深入研究，探讨其在司法系统中的应用及其潜在的偏见问题。
2018年
多个研究团队发布了关于COMPAS评分系统的新研究成果，进一步探讨了其有效性和公平性。
2020年

常用场景

经典使用场景

在司法领域，COMPAS Recidivism Risk Score Data数据集被广泛用于评估被告再次犯罪的风险。通过分析被告的个人信息、犯罪历史、社会经济状况等多维度数据，该数据集能够生成一个风险评分，帮助法官和法律专家在量刑和假释决策中做出更为客观和科学的判断。

解决学术问题

COMPAS Recidivism Risk Score Data数据集解决了司法决策中的主观性和不一致性问题。通过引入数据驱动的风险评估模型，该数据集为学术界提供了一个研究司法公正性和算法偏见的重要工具。其研究成果不仅推动了法律与数据科学的交叉研究，还为政策制定者提供了科学依据，以优化司法系统的运作。

实际应用

在实际应用中，COMPAS Recidivism Risk Score Data数据集被用于多个司法管辖区，以辅助法官和假释委员会进行决策。通过提供客观的风险评分，该数据集有助于减少人为偏见，提高司法决策的透明度和公正性。此外，它还被用于培训法律专业人员，使其更好地理解和应用数据驱动的决策工具。

数据集最近研究

相关研究论文

1
Machine Bias: There’s Software Used Across the Country to Predict Future Criminals. And it’s Biased Against Blacks.ProPublica · 2016年
2
Fairness in Criminal Justice Risk Assessments: The State of the ArtUniversity of Pennsylvania · 2017年
3
The accuracy, fairness, and limits of predicting recidivismUniversity of California, Berkeley · 2018年
4
Algorithmic Fairness in Recidivism Prediction: A Critical ReviewUniversity of Michigan · 2020年
5
A Survey on Bias and Fairness in Machine LearningUniversity of California, Berkeley · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录