Synthetic Dataset Generation

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/lan-j/unfair_dataset_generation

下载链接

链接失效反馈

官方服务：

资源简介：

该项目实现了一种使用遗传算法的数据生成方法，旨在故意在多个统计公平性指标上诱导数据集偏差，用于更公平的不公平性研究。

This project implements a data generation method using genetic algorithms, aiming to deliberately induce dataset bias across multiple statistical fairness metrics for more equitable research on unfairness.

创建时间：

2023-05-31

原始信息汇总

数据集概述

数据集目的

本数据集用于生成带有偏见的合成数据，以支持对多种统计公平性度量的研究。

数据生成方法

采用遗传算法来故意在数据集中引入偏见。

主要功能

生成参考数据集
生成基于特定公平性度量的不公平数据集

执行程序

依赖库：sklearn, pandas, numpy, statistics, geneal
如何运行程序：
- 选择不公平度量指标
- 生成不公平数据集的命令示例：
  
  python main.py --unfair_metric 7 --dataset "simulated.csv" --label_name "label" --sensitive_name "protected" --save_unfair_dataset

引用文献

Lan Jiang, Clara Belitz, and Nigel Bosch. 2024. Synthetic Dataset Generation for Fairer Unfairness Research. In Proceedings of the 14th Learning Analytics and Knowledge Conference (LAK 24). Association for Computing Machinery, New York, NY, USA, 200–209. https://doi.org/10.1145/3636555.3636868

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了遗传算法，旨在通过人为引入偏差来生成具有特定统计公平性度量的合成数据集。研究人员通过模拟不同的公平性指标，如整体准确率平等、统计平等、条件程序等，生成了参考数据集和不公平数据集。这一方法不仅能够精确控制数据中的偏差程度，还为公平性研究提供了可控的实验环境。

特点

该数据集的特点在于其通过遗传算法生成的合成数据，能够精确模拟多种统计公平性度量下的偏差情况。数据集包含多个敏感特征和标签，使得研究者能够在不同公平性指标下进行深入分析。此外，数据集的设计考虑了多样性和复杂性，能够满足不同研究需求，为公平性研究提供了丰富的数据支持。

使用方法

使用该数据集时，用户需通过命令行工具指定所需的公平性度量指标，并生成相应的参考数据集或不公平数据集。用户可以通过调整参数，如敏感特征名称和标签名称，来定制化生成符合研究需求的数据集。生成的数据集可直接用于公平性算法的测试和验证，为研究者提供了便捷的实验工具。

背景与挑战

背景概述

在机器学习与数据科学领域，公平性问题日益受到关注。2024年，Lan Jiang、Clara Belitz和Nigel Bosch共同提出了Synthetic Dataset Generation for Fairer Unfairness Research项目，旨在通过合成数据集生成方法，深入研究统计公平性度量中的偏见问题。该项目采用遗传算法，故意在数据集中引入偏见，以模拟现实世界中的不公平现象。该研究发表于第14届学习分析与知识会议（LAK '24），为公平性研究提供了新的工具和方法，推动了相关领域的发展。

当前挑战

该数据集在构建过程中面临多重挑战。首先，如何在数据生成过程中精确控制偏见程度，以确保数据集能够有效反映不同公平性度量下的不公平现象，是一个复杂的技术难题。其次，遗传算法的参数设置与优化需要大量实验与验证，以确保生成的数据集具有统计学意义。此外，数据集的多样性与代表性也是关键问题，如何在有限的资源下生成涵盖多种场景的数据集，仍需进一步探索。这些挑战不仅考验了研究团队的技术能力，也为未来公平性研究提供了新的研究方向。

常用场景

经典使用场景

在公平性研究领域，Synthetic Dataset Generation数据集通过遗传算法生成具有特定偏差的合成数据，为研究者提供了一个可控的实验环境。该数据集广泛应用于机器学习模型的公平性评估，帮助研究者深入理解不同公平性指标对模型性能的影响。通过生成具有不同偏差程度的数据集，研究者能够系统地测试和比较各种公平性算法的效果，从而推动公平性研究的发展。

实际应用

在实际应用中，Synthetic Dataset Generation数据集被广泛用于金融、医疗和招聘等领域的公平性评估。例如，在金融领域，该数据集帮助评估贷款审批模型的公平性，确保不同群体在贷款审批过程中得到公正对待。在医疗领域，该数据集用于测试医疗诊断模型的公平性，避免因数据偏差导致的误诊。通过在这些关键领域的应用，该数据集为构建更公平的决策系统提供了有力支持。

衍生相关工作

基于Synthetic Dataset Generation数据集，研究者们开发了多种公平性算法和评估工具。例如，一些研究利用该数据集提出了新的公平性指标，进一步细化了公平性评估的标准。此外，该数据集还催生了一系列关于公平性增强算法的研究，这些算法在多个实际场景中得到了验证和应用。这些衍生工作不仅丰富了公平性研究的内容，还为解决现实世界中的公平性问题提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集