five

AiresPucrs/COMPAS

收藏
Hugging Face2024-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/COMPAS
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: float64 - name: name dtype: string - name: first dtype: string - name: last dtype: string - name: sex dtype: string - name: dob dtype: string - name: age dtype: int64 - name: age_cat dtype: string - name: race dtype: string - name: juv_fel_count dtype: int64 - name: decile_score dtype: int64 - name: juv_misd_count dtype: int64 - name: juv_other_count dtype: int64 - name: priors_count dtype: int64 - name: days_b_screening_arrest dtype: float64 - name: c_jail_in dtype: string - name: c_jail_out dtype: string - name: c_days_from_compas dtype: float64 - name: c_charge_degree dtype: string - name: c_charge_desc dtype: string - name: is_recid dtype: int64 - name: r_charge_degree dtype: string - name: r_days_from_arrest dtype: float64 - name: r_offense_date dtype: string - name: r_charge_desc dtype: string - name: r_jail_in dtype: string - name: violent_recid dtype: float64 - name: is_violent_recid dtype: int64 - name: vr_charge_degree dtype: string - name: vr_offense_date dtype: string - name: vr_charge_desc dtype: string - name: type_of_assessment dtype: string - name: decile_score.1 dtype: int64 - name: score_text dtype: string - name: screening_date dtype: string - name: v_type_of_assessment dtype: string - name: v_decile_score dtype: int64 - name: v_score_text dtype: string - name: priors_count.1 dtype: int64 - name: event dtype: int64 splits: - name: train num_bytes: 7742099 num_examples: 18316 download_size: 1350808 dataset_size: 7742099 license: odc-by language: - en pretty_name: COMPAS size_categories: - 10K<n<100K task_categories: - text-classification tags: - legal --- # COMPAS (Teeny-Tiny Castle) This dataset is part of a tutorial tied to the [Teeny-Tiny Castle](https://github.com/Nkluge-correa/TeenyTinyCastle), an open-source repository containing educational tools for AI Ethics and Safety research. ## How to Use ```python from datasets import load_dataset dataset = load_dataset("AiresPucrs/COMPAS", split = 'train') ```

The COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset is used to analyze various aspects of the criminal justice system, including the likelihood of certain groups receiving harsher sentences and the accuracy of the COMPAS algorithms predictions. The dataset contains 40 columns that capture demographic information, assessment details, recidivism indicators, and risk scores assigned by the COMPAS algorithm. Each row represents a unique assessment or case related to an individuals involvement with the criminal justice system. The dataset consists of 18,316 demonstrations and is available in English. It is licensed under the Open Database Commons license.
提供机构:
AiresPucrs
原始信息汇总

COMPAS 数据集概述

数据集详情

特征信息

  • id: 数据类型为 float64
  • name: 数据类型为 string
  • first: 数据类型为 string
  • last: 数据类型为 string
  • sex: 数据类型为 string
  • dob: 数据类型为 string
  • age: 数据类型为 int64
  • age_cat: 数据类型为 string
  • race: 数据类型为 string
  • juv_fel_count: 数据类型为 int64
  • decile_score: 数据类型为 int64
  • juv_misd_count: 数据类型为 int64
  • juv_other_count: 数据类型为 int64
  • priors_count: 数据类型为 int64
  • days_b_screening_arrest: 数据类型为 float64
  • c_jail_in: 数据类型为 string
  • c_jail_out: 数据类型为 string
  • c_days_from_compas: 数据类型为 float64
  • c_charge_degree: 数据类型为 string
  • c_charge_desc: 数据类型为 string
  • is_recid: 数据类型为 int64
  • r_charge_degree: 数据类型为 string
  • r_days_from_arrest: 数据类型为 float64
  • r_offense_date: 数据类型为 string
  • r_charge_desc: 数据类型为 string
  • r_jail_in: 数据类型为 string
  • violent_recid: 数据类型为 float64
  • is_violent_recid: 数据类型为 int64
  • vr_charge_degree: 数据类型为 string
  • vr_offense_date: 数据类型为 string
  • vr_charge_desc: 数据类型为 string
  • type_of_assessment: 数据类型为 string
  • decile_score.1: 数据类型为 int64
  • score_text: 数据类型为 string
  • screening_date: 数据类型为 string
  • v_type_of_assessment: 数据类型为 string
  • v_decile_score: 数据类型为 int64
  • v_score_text: 数据类型为 string
  • priors_count.1: 数据类型为 int64
  • event: 数据类型为 int64

数据分割

  • train: 包含 18316 个样本,占用 7742099 字节

数据集大小

  • 下载大小: 1350808 字节
  • 数据集大小: 7742099 字节

许可

  • 数据集遵循 odc-by 许可

语言

  • 英语

数据集名称

  • COMPAS

数据集大小分类

  • 10K<n<100K
搜集汇总
数据集介绍
main_image_url
构建方式
COMPAS数据集的构建基于对司法系统中COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)评分的详细记录。该数据集汇集了大量被告人的个人信息、犯罪历史、司法评分及相关的法律记录,旨在为研究司法决策和人工智能伦理提供数据支持。通过整合这些多维度的数据,数据集为研究者提供了一个全面且细致的视角,以探讨司法系统中的算法应用及其潜在影响。
特点
COMPAS数据集的显著特点在于其多维度的数据结构,涵盖了个体的基础信息、犯罪历史、司法评分及法律记录等多个方面。数据集不仅包含了定量数据如年龄、犯罪次数等,还包含了定性数据如犯罪描述和评分等级,为研究者提供了丰富的分析维度。此外,数据集的标签设计(如是否再犯、暴力再犯等)使其在司法预测和伦理研究中具有广泛的应用潜力。
使用方法
使用COMPAS数据集时,研究者可以通过HuggingFace的`datasets`库轻松加载数据。通过以下代码片段,用户可以加载训练集并进行进一步的分析或模型训练: python from datasets import load_dataset dataset = load_dataset("AiresPucrs/COMPAS", split='train') 该数据集适用于文本分类任务,尤其在司法预测和人工智能伦理研究领域具有重要应用价值。研究者可以根据数据集中的多维度信息,构建模型以预测再犯风险或评估司法决策的公平性。
背景与挑战
背景概述
COMPAS数据集由AiresPucrs团队创建,作为Teeny-Tiny Castle项目的一部分,旨在支持人工智能伦理与安全研究的教育工具。该数据集主要用于文本分类任务,涉及法律领域,特别是与犯罪风险评估相关的数据。数据集包含了多个与犯罪记录、个人背景、以及风险评估相关的特征,如年龄、性别、种族、犯罪记录次数等。通过这些数据,研究人员可以探索和分析犯罪风险评估模型中的偏见与公平性问题,从而推动人工智能在法律领域的应用更加公正和透明。
当前挑战
COMPAS数据集在构建过程中面临的主要挑战之一是如何确保数据的质量和代表性,特别是在涉及敏感信息如种族和性别时,避免引入潜在的偏见。此外,数据集的特征多样性也为模型训练带来了复杂性,如何在保持模型性能的同时减少不公平性是一个重要的研究方向。另一个挑战是数据集的隐私保护,如何在公开数据的同时保护个人隐私,确保数据的合法使用。
常用场景
经典使用场景
在法律与社会公平领域,COMPAS数据集常用于评估和预测被告的再犯风险。通过分析被告的个人信息、犯罪历史、年龄分类等特征,该数据集为法律决策提供了量化依据。其经典使用场景包括构建风险评估模型,以辅助法官在量刑和假释决策中做出更为客观和公正的判断。
解决学术问题
COMPAS数据集在学术研究中解决了关于算法公平性和偏见的重大问题。通过分析数据集中的种族、性别等因素,研究者能够探讨算法在风险评估中是否存在不公平的偏见,从而推动法律领域的算法透明性和公正性研究。这一研究对提升司法系统的公正性和信任度具有深远影响。
衍生相关工作
COMPAS数据集的发布激发了大量关于算法公平性和司法透明度的研究。相关工作包括探讨如何减少算法中的种族和性别偏见,以及如何设计更为公平的风险评估模型。此外,该数据集还促进了关于数据隐私和伦理问题的讨论,推动了法律与技术交叉领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作