FairGround

Name: FairGround
Creator: 德国慕尼黑路德维希马克西米利安大学统计系、慕尼黑机器学习中心、意大利的里雅斯特大学
Published: 2025-10-26 00:48:33
License: 暂无描述

arXiv2025-10-26 更新2025-10-29 收录

下载链接：

https://github.com/reliable-ai/fairground

下载链接

链接失效反馈

官方服务：

资源简介：

FairGround 是一个统一的框架、数据语料库和 Python 包，旨在推进公平机器学习分类的可重复研究和关键数据研究。FairGround 目前包含 44 个表格数据集，每个数据集都带有丰富的与公平性相关的元数据注释。我们的配套 Python 包标准化了数据集加载、预处理、转换和分割，简化了实验工作流程。通过提供多样化的、记录良好的数据集语料库以及强大的工具，FairGround 使得开发更公平、更可靠、更可重复的 ML 模型成为可能。所有资源都是公开可用的，以支持开放和协作的研究。

FairGround is a unified framework, data corpus, and Python package designed to advance reproducible research and critical data studies in fair machine learning classification. Currently, FairGround includes 44 tabular datasets, each accompanied by rich fairness-related metadata annotations. Our accompanying Python package standardizes dataset loading, preprocessing, transformation, and splitting, streamlining experimental workflows. By providing a diverse, well-documented dataset corpus and robust tools, FairGround enables the development of fairer, more reliable, and more reproducible ML models. All resources are publicly available to support open and collaborative research.

提供机构：

德国慕尼黑路德维希马克西米利安大学统计系、慕尼黑机器学习中心、意大利的里雅斯特大学

创建时间：

2025-10-26

原始信息汇总

FairML Datasets 数据集概述

数据集基本信息

数据集名称: FairML Datasets
数据集类型: 公平分类数据集集合
数据包名称: fairml-datasets
支持数据集数量: 44个数据集

核心功能

数据加载

轻松下载、加载和准备语料库中支持的44个数据集
通过数据集ID直接访问特定数据集
支持完整的机器学习训练数据拆分

数据集管理

提供预设的数据集集合
支持在单个场景、五个或四十个数据集上评估算法
自动计算丰富的数据集元数据特征

数据处理

自动应用数据集预处理
可配置的处理选项和默认值
处理敏感属性以促进公平感知的机器学习实验

技术特性

编程接口: Python包
命令行支持: 提供命令行界面访问常见操作
安装方式: 可通过pip或uv安装

使用示例

python from fairml_datasets import Dataset dataset = Dataset.from_id("folktables_acsincome_small") df = dataset.load() df_transformed, info = dataset.transform(df) df_train, df_test, df_val = dataset.train_test_val_split(df_transformed)

命令行功能

生成和导出元数据
在不同处理阶段导出数据集
以BibTeX格式导出数据集引用

许可信息

代码、注释和生成的元数据采用双重许可
主要许可: Creative Commons Attribution 4.0 International License
补充许可: GNU GENERAL PUBLIC LICENSE 3
注意: 单个数据集可能具有不同的许可证

搜集汇总

数据集介绍

构建方式

FairGround数据集通过系统化的数据收集与标注流程构建而成，涵盖44个表格数据集并形成136个独特场景。构建过程基于对算法公平性研究领域现有数据资源的全面调研，采用双重筛选机制：首先从已有文献中识别候选数据集，随后通过数据可访问性、任务适配性和生成逻辑清晰度等标准进行严格筛选。每个数据集均配备详尽的元数据标注，涵盖35项人工标注特征和27项计算元特征，包括数据集来源、敏感属性定义、目标变量说明等关键信息。数据获取遵循原始来源原则，通过Python工具包实现自动化下载与格式统一，确保数据溯源的可验证性。

使用方法

数据集通过配套的Python工具包实现标准化使用流程，该工具包提供数据获取、预处理、转换与分割的全链路支持。用户可通过统一接口加载任意数据集，工具包自动处理缺失值填充、敏感属性二值化、分类变量编码等常见预处理操作。数据转换流程支持多种配置选项，包括特征子集选择、目标变量二值化策略和敏感属性分组方式。内置的数据分割功能支持随机种子控制和分层抽样，确保实验可复现性。此外，工具包提供预定义的基准数据集集合，包括去相关集合、宽松许可集合和地理多样性集合，用户可直接调用这些集合进行系统化的算法评估。

背景与挑战

背景概述

FairGround数据集由慕尼黑大学统计系的Jan Simson等研究人员于2025年创建，旨在解决算法公平性研究中数据集选择狭窄且处理不一致的核心问题。该数据集整合了44个表格数据集，涵盖136个敏感属性场景，并标注了丰富的元数据，为高风险决策领域（如医疗、司法）的公平机器学习研究提供了标准化评估基础。其创新性在于将数据基础设施与可复现性工具结合，推动了算法公平性研究的严谨性与普适性。

当前挑战

该数据集致力于应对算法公平性领域的两大挑战：一是现有基准数据集（如Adult、COMPAS）存在的任务人为化、数据噪声及编码错误等问题，限制了评估的可靠性；二是在构建过程中需克服数据来源异构性、敏感属性标注一致性及地理代表性不足（近60%数据源自美国）等困难，同时通过自动化预处理管道确保数据处理透明可复现。

常用场景

解决学术问题

该数据集有效解决了算法公平性研究中的可复现性与泛化性难题。通过提供经过标准化注释的多样化数据场景，它使研究者能够系统评估去偏方法对数据集特征的敏感性，例如敏感属性可预测性与基础率差异对算法性能的影响。其配套工具链将隐式的数据处理决策显式化，显著降低了因数据预处理差异导致的结论偏差，为建立具有统计显著性的公平性评估基准提供了基础设施支撑。

实际应用

在医疗健康、刑事司法和金融服务等高风险决策领域，FairGround支撑着公平ML系统的实际部署验证。其地理多样性数据集集合帮助机构评估算法在不同地域人口中的表现一致性，而经过许可过滤的数据子集则为合规部署提供了法律保障。通过关联数据集元数据与算法表现，实践者可预测特定去偏方法在真实数据条件下的有效性，为欧盟《人工智能法案》等监管要求下的偏差评估提供量化依据。

数据集最近研究