COMPAS Dataset|法律预测数据集|伦理分析数据集

github2024-11-20 更新2024-11-22 收录

法律预测

伦理分析

下载链接：

https://github.com/alexabellakahn/COMPAS-Research

下载链接

链接失效反馈

资源简介：

COMPAS数据集用于分析和构建更公平的机器学习模型，探索技术设计决策中的伦理权衡。数据集包括被告的个人标识符、种族、性别、年龄类别等信息，用于预测被告在两年内是否会再次犯罪。

创建时间：

2024-11-20

原始信息汇总

COMPAS-Research 数据集概述

数据集描述

数据集名称: COMPAS Dataset
研究目标: 构建更公平的机器学习模型，探索技术设计决策中的伦理权衡。

数据处理

数据下载与加载: 数据集被下载并加载到pandas DataFrame中。
数据清洗:
- 移除不必要的列，如个人标识符、冗余信息和与任务无关的字段。
- 剩余列被重命名以提高清晰度。
预处理步骤:
- 过滤掉罕见指控（出现次数少于70次的指控）。
- 对分类变量（如种族、性别、年龄类别）进行独热编码，转换为适合机器学习模型的二进制列。

模型构建与分析

模型类型:
- 逻辑回归模型
- 支持向量机（SVM）模型
- 随机森林分类器
- 神经网络模型（多层感知器）
模型目标: 预测被告在两年内是否会再次犯罪。
数据分割: 数据集被分为训练集（70%）和测试集（30%）。
模型评估:
- 评估模型在训练集和测试集上的准确性。
- 通过混淆矩阵分析不同种族群体（非洲裔美国人和高加索人）的模型公平性。
- 计算并比较不同种族群体的假阳性率（FPR）。
公平性调整:
- 调整分类阈值以均衡不同种族群体的FPR。
- 重新评估调整后的模型，确保在不同群体间更公平的错误分布。

特征重要性分析

计算特征重要性: 分析哪些变量对预测贡献最大。
可视化: 使用条形图可视化特征重要性，特别关注与种族相关的特征。

伦理与公平性

项目主题: 机器学习中的公平性是核心主题。
伦理影响: 强调在敏感应用（如刑事司法系统）中，模型偏见的实际后果。
公平性评估: 使用等化FPR等定义评估模型公平性。

总结

项目目标: 提供理解和分析机器学习模型偏见的实用指南，平衡性能与公平性。

AI搜集汇总

数据集介绍

构建方式

COMPAS数据集的构建始于对原始数据的下载与加载，通过pandas DataFrame进行数据清洗，剔除无关紧要的列如个人标识符和冗余信息。随后，对剩余列进行重命名以增强可读性。预处理阶段包括过滤罕见指控和独热编码分类变量，如种族、性别和年龄类别，确保数据适合机器学习模型的输入需求。

特点

COMPAS数据集的显著特点在于其对公平性的关注，通过分离测试数据集中的种族群体，分析模型的公平性。此外，数据集支持多种模型的构建与评估，包括逻辑回归、支持向量机、随机森林分类器和神经网络，每种模型都经过细致的特征重要性分析，以揭示种族相关特征对模型决策的影响。

使用方法

使用COMPAS数据集时，首先需进行数据预处理，包括数据清洗和编码转换。随后，可以构建并训练多种机器学习模型，如逻辑回归、SVM、随机森林和神经网络，以预测被告的再犯风险。通过调整分类阈值，可以实现不同种族群体间的公平性评估，确保模型在敏感应用中的公正性。

背景与挑战

背景概述

COMPAS数据集是由ProPublica在2016年发布的一个公开数据集，主要用于研究机器学习模型在刑事司法系统中的应用及其公平性。该数据集的核心研究问题是如何在预测被告是否会再次犯罪时，确保模型的公平性，避免因种族、性别等因素导致的偏见。主要研究人员和机构包括ProPublica的记者和数据科学家，他们的工作对推动机器学习在敏感领域的公平性研究具有重要影响。

当前挑战

COMPAS数据集在构建过程中面临的主要挑战包括数据清洗和预处理，特别是去除个人标识符和无关信息，以及处理罕见犯罪记录。此外，该数据集在模型训练和评估阶段面临的挑战是如何在不同种族群体间实现公平的预测结果，避免某一群体被不公平地高估或低估再犯风险。研究人员通过调整分类阈值和使用不同的机器学习算法来解决这些挑战，但如何在复杂性和可解释性之间找到平衡仍然是一个持续的难题。

常用场景

经典使用场景

COMPAS数据集的经典使用场景主要集中在构建更加公平的机器学习模型，特别是在刑事司法系统中。通过分析被告在两年内是否会再次犯罪，研究人员可以训练逻辑回归、支持向量机和随机森林等多种模型，以预测再犯率。这些模型不仅评估了整体准确性，还特别关注了不同种族群体间的公平性，通过调整分类阈值来平衡误判率，确保模型在不同群体中的表现更加公正。

解决学术问题

COMPAS数据集解决了机器学习领域中一个重要的学术问题，即如何在模型设计和应用中实现公平性。通过分析和调整模型，研究人员能够识别和减轻模型中的偏见，特别是在涉及种族和性别等敏感特征时。这不仅提升了模型的公平性，还为理解和解决机器学习中的伦理问题提供了实际案例，对推动公平机器学习的发展具有重要意义。

衍生相关工作

COMPAS数据集的发布和分析催生了一系列相关的经典工作，特别是在机器学习公平性和伦理研究领域。许多研究者基于此数据集开发了新的公平性评估指标和算法，如调整分类阈值以平衡不同群体的误判率。此外，该数据集还激发了对机器学习模型透明性和可解释性的研究，推动了公平机器学习理论和实践的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录