AiresPucrs/COMPAS|刑事司法数据集|算法评估数据集

hugging_face2024-03-25 更新2024-03-04 收录

刑事司法

算法评估

下载链接：

https://hf-mirror.com/datasets/AiresPucrs/COMPAS

下载链接

链接失效反馈

资源简介：

COMPAS（Correctional Offender Management Profiling for Alternative Sanctions）数据集用于分析刑事司法系统的各个方面，包括某些被告群体是否更可能受到更严厉的判决、算法预测的准确性以及这些预测对判决决策的影响。该数据集包含40列，详细记录了被告的 demographic 信息、评估细节、再犯指标和 COMPAS 算法分配的风险分数。每行代表一个独特的评估或案例，捕捉与个人与刑事司法系统互动相关的信息以及 COMPAS 工具对其再犯风险和其他因素的评估。数据集包含18,316个示例，使用英语，并根据开放数据库公约许可。

The COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset is used to analyze various aspects of the criminal justice system, including the likelihood of certain groups receiving harsher sentences and the accuracy of the COMPAS algorithms predictions. The dataset contains 40 columns that capture demographic information, assessment details, recidivism indicators, and risk scores assigned by the COMPAS algorithm. Each row represents a unique assessment or case related to an individuals involvement with the criminal justice system. The dataset consists of 18,316 demonstrations and is available in English. It is licensed under the Open Database Commons license.

提供机构：

AiresPucrs

原始信息汇总

COMPAS 数据集概述

数据集详情

特征信息

id: 数据类型为 float64
name: 数据类型为 string
first: 数据类型为 string
last: 数据类型为 string
sex: 数据类型为 string
dob: 数据类型为 string
age: 数据类型为 int64
age_cat: 数据类型为 string
race: 数据类型为 string
juv_fel_count: 数据类型为 int64
decile_score: 数据类型为 int64
juv_misd_count: 数据类型为 int64
juv_other_count: 数据类型为 int64
priors_count: 数据类型为 int64
days_b_screening_arrest: 数据类型为 float64
c_jail_in: 数据类型为 string
c_jail_out: 数据类型为 string
c_days_from_compas: 数据类型为 float64
c_charge_degree: 数据类型为 string
c_charge_desc: 数据类型为 string
is_recid: 数据类型为 int64
r_charge_degree: 数据类型为 string
r_days_from_arrest: 数据类型为 float64
r_offense_date: 数据类型为 string
r_charge_desc: 数据类型为 string
r_jail_in: 数据类型为 string
violent_recid: 数据类型为 float64
is_violent_recid: 数据类型为 int64
vr_charge_degree: 数据类型为 string
vr_offense_date: 数据类型为 string
vr_charge_desc: 数据类型为 string
type_of_assessment: 数据类型为 string
decile_score.1: 数据类型为 int64
score_text: 数据类型为 string
screening_date: 数据类型为 string
v_type_of_assessment: 数据类型为 string
v_decile_score: 数据类型为 int64
v_score_text: 数据类型为 string
priors_count.1: 数据类型为 int64
event: 数据类型为 int64

数据分割

train: 包含 18316 个样本，占用 7742099 字节

数据集大小

下载大小: 1350808 字节
数据集大小: 7742099 字节

许可

数据集遵循 odc-by 许可

语言

英语

数据集名称

COMPAS

数据集大小分类

10K<n<100K

AI搜集汇总

数据集介绍

构建方式

COMPAS数据集的构建基于对司法系统中COMPAS（Correctional Offender Management Profiling for Alternative Sanctions）评分的详细记录。该数据集汇集了大量被告人的个人信息、犯罪历史、司法评分及相关的法律记录，旨在为研究司法决策和人工智能伦理提供数据支持。通过整合这些多维度的数据，数据集为研究者提供了一个全面且细致的视角，以探讨司法系统中的算法应用及其潜在影响。

特点

COMPAS数据集的显著特点在于其多维度的数据结构，涵盖了个体的基础信息、犯罪历史、司法评分及法律记录等多个方面。数据集不仅包含了定量数据如年龄、犯罪次数等，还包含了定性数据如犯罪描述和评分等级，为研究者提供了丰富的分析维度。此外，数据集的标签设计（如是否再犯、暴力再犯等）使其在司法预测和伦理研究中具有广泛的应用潜力。

使用方法

使用COMPAS数据集时，研究者可以通过HuggingFace的`datasets`库轻松加载数据。通过以下代码片段，用户可以加载训练集并进行进一步的分析或模型训练： python from datasets import load_dataset dataset = load_dataset("AiresPucrs/COMPAS", split='train') 该数据集适用于文本分类任务，尤其在司法预测和人工智能伦理研究领域具有重要应用价值。研究者可以根据数据集中的多维度信息，构建模型以预测再犯风险或评估司法决策的公平性。

背景与挑战

背景概述

COMPAS数据集由AiresPucrs团队创建，作为Teeny-Tiny Castle项目的一部分，旨在支持人工智能伦理与安全研究的教育工具。该数据集主要用于文本分类任务，涉及法律领域，特别是与犯罪风险评估相关的数据。数据集包含了多个与犯罪记录、个人背景、以及风险评估相关的特征，如年龄、性别、种族、犯罪记录次数等。通过这些数据，研究人员可以探索和分析犯罪风险评估模型中的偏见与公平性问题，从而推动人工智能在法律领域的应用更加公正和透明。

当前挑战

COMPAS数据集在构建过程中面临的主要挑战之一是如何确保数据的质量和代表性，特别是在涉及敏感信息如种族和性别时，避免引入潜在的偏见。此外，数据集的特征多样性也为模型训练带来了复杂性，如何在保持模型性能的同时减少不公平性是一个重要的研究方向。另一个挑战是数据集的隐私保护，如何在公开数据的同时保护个人隐私，确保数据的合法使用。

常用场景

经典使用场景

在法律与社会公平领域，COMPAS数据集常用于评估和预测被告的再犯风险。通过分析被告的个人信息、犯罪历史、年龄分类等特征，该数据集为法律决策提供了量化依据。其经典使用场景包括构建风险评估模型，以辅助法官在量刑和假释决策中做出更为客观和公正的判断。

解决学术问题

COMPAS数据集在学术研究中解决了关于算法公平性和偏见的重大问题。通过分析数据集中的种族、性别等因素，研究者能够探讨算法在风险评估中是否存在不公平的偏见，从而推动法律领域的算法透明性和公正性研究。这一研究对提升司法系统的公正性和信任度具有深远影响。

衍生相关工作

COMPAS数据集的发布激发了大量关于算法公平性和司法透明度的研究。相关工作包括探讨如何减少算法中的种族和性别偏见，以及如何设计更为公平的风险评估模型。此外，该数据集还促进了关于数据隐私和伦理问题的讨论，推动了法律与技术交叉领域的研究进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。