A Suite of Fairness Datasets for Tabular Classification
收藏arXiv2023-08-01 更新2024-06-21 收录
下载链接:
https://github.com/IBM/lale/blob/master/examples/demo_fairness_datasets.ipynb
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由IBM研究院和卡内基梅隆大学合作创建,包含20个用于评估机器学习分类器公平性的表格数据集。数据集大小和数据量各异,主要来源于OpenML、AHRQ和ProPublica等平台。创建过程中,数据集经过最小化预处理,并提供公平性元数据,如有利标签和受保护属性。这些数据集主要应用于机器学习公平性研究,旨在通过严格的实验评估,帮助研究者和利益相关者选择和发明更公平的算法。
This dataset was collaboratively developed by IBM Research and Carnegie Mellon University, consisting of 20 tabular datasets for evaluating the fairness of machine learning classifiers. The datasets vary in scale and data volume, and are primarily sourced from platforms such as OpenML, AHRQ, and ProPublica. During the creation process, the datasets underwent minimal preprocessing, with fairness-related metadata including favorable labels and protected attributes provided. These datasets are mainly utilized in machine learning fairness research, aiming to help researchers and stakeholders select and devise fairer algorithms through rigorous experimental evaluations.
提供机构:
IBM研究院
创建时间:
2023-08-01
搜集汇总
数据集介绍

构建方式
在机器学习公平性研究领域,数据集的构建需兼顾多样性与标准化。该数据集套件通过整合20个公开可用的表格分类数据集,并辅以精心设计的公平性元数据,为研究者提供了系统化的实验基础。构建过程首先从OpenML、AHRQ及ProPublica等权威平台获取原始数据,随后进行最小化预处理,如目标变量的离散化与冗余特征的剔除,以确保数据原始性。每个数据集均配备JSON格式的元数据,明确标注了受保护属性与有利标签,从而为公平性分析奠定结构化基础。
特点
该数据集套件的核心特征在于其广泛覆盖与深度标注。它囊括了从百余样本到数万样本不等的20个数据集,涵盖了教育、金融、医疗等多个社会敏感领域,确保了实验的多样性与代表性。每个数据集均附有详细的公平性元数据,包括受保护属性(如种族、性别)的参考组定义与有利标签的明确标识,这为量化偏见与评估干预措施提供了关键依据。此外,数据格式统一为pandas数据结构,兼容主流机器学习库,极大提升了使用的便捷性与可复现性。
使用方法
使用该数据集套件需依托Lale开源库,通过简单的Python函数调用即可获取数据与元数据。例如,执行`lale.lib.aif360.fetch_creditg_df()`可返回特征数据、标签及公平性信息,并以pandas格式呈现。研究者可在此基础上,利用scikit-learn等工具进行数据分割、模型训练与评估,同时结合元数据实施偏见检测与缓解算法。该套件设计灵活,不强制依赖特定处理流程,支持用户根据研究需求自定义分析管道,从而推动公平性机器学习方法的严谨实证探索。
背景与挑战
背景概述
在人工智能伦理日益受到关注的背景下,机器学习公平性研究成为学术界与工业界的焦点。由IBM研究院与卡内基梅隆大学的研究人员于2023年联合推出的《A Suite of Fairness Datasets for Tabular Classification》数据集套件,旨在解决表格分类任务中算法公平性评估数据匮乏的难题。该套件整合了20个涵盖就业、教育、信贷等多元社会领域的公开数据集,并首次系统化地提供了包含受保护属性与有利标签在内的公平性元数据。其诞生标志着公平性机器学习从理论探讨迈向标准化实证评估的关键一步,为后续研究提供了可复现、可扩展的实验基础。
当前挑战
该数据集套件致力于应对表格分类场景下公平性干预措施评估不充分的挑战。传统研究因缺乏统一、易获取的公平性数据集,导致实验往往局限于少数案例,难以全面验证算法在不同社会语境中的泛化能力与偏差缓解效果。在构建过程中,研究者面临多重困难:一是数据来源分散且许可协议各异,需协调开源平台与受限数据的访问规范;二是公平性元数据的定义涉及复杂的社会价值判断,需在技术实现中保留灵活可调的语义框架;三是原始数据的异构性(如缺失值、类别特征、规模差异)要求最小化预处理以避免引入隐藏偏差,这对数据标准化流程的设计提出了精细平衡的要求。
常用场景
经典使用场景
在机器学习公平性研究领域,表格分类数据集的公平性评估常因数据获取困难而受限。该数据集套件通过集成20个涵盖不同领域(如教育、金融、医疗)的表格数据集,并附带详细的公平性元数据,为研究者提供了一个标准化的实验平台。其经典使用场景在于支持公平性干预算法的系统性比较与验证,例如在分类模型中检测和缓解基于种族、性别等敏感属性的偏见,从而推动算法公平性研究的可重复性与严谨性。
解决学术问题
该数据集套件有效解决了公平性机器学习研究中数据稀缺与元数据缺失的核心问题。传统研究多依赖少数数据集,导致结论泛化能力不足。通过提供结构化的公平性元数据(如受保护属性和有利标签),该套件使研究者能够量化数据中的固有偏见,并评估不同去偏算法(如重加权、对抗训练)在多样场景下的效能。这不仅促进了公平性度量的标准化,还为跨领域偏见机制的深入分析奠定了数据基础。
衍生相关工作
该数据集套件衍生了一系列经典研究工作,推动了公平性机器学习工具生态的发展。基于其提供的标准化接口,研究者开发了如Lale库中的偏见缓解算子,并与现有框架(如AI Fairness 360)集成,扩展了多数据集评估流程。此外,套件启发了对公平性度量(如差异影响、机会均等)的跨数据集基准测试,促进了去偏算法(如后处理校准和因果干预)的创新,为后续大规模公平性研究提供了可扩展的范例。
以上内容由遇见数据集搜集并总结生成



