UsmanGohar/FairEnsemble
收藏Hugging Face2023-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UsmanGohar/FairEnsemble
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于研究机器学习集成模型公平性的四个流行数据集:Adult Census、Bank Marketing、Titanic和German Credit。这些数据集用于开发一个包含168个集成模型的基准,以研究公平性在集成模型中的组合方式及其影响。
# 公平集成学习(Fair Ensembles)
本代码仓库包含了提交至ICSE 2023的下述论文的基准模型、数据集与实验结果。
**标题**:《面向理解集成机器学习中的公平性及其构成》(Towards Understanding Fairness and its Composition in Ensemble Machine Learning)
**摘要** 机器学习(Machine Learning, ML)软件已在现代社会中得到广泛应用,据报道其基于种族、性别、年龄等属性对少数群体存在公平性隐患。近年来已有诸多研究提出了度量与缓解机器学习模型中算法偏见的方法。现有方案多聚焦于基于单分类器的机器学习模型,但现实中的机器学习模型通常以集成方式组合多个独立或依赖的学习器(如随机森林(Random Forest)),此时公平性的构成方式并非显而易见。"集成学习中的公平性是如何构成的?单个学习器的公平性对集成最终的公平性存在何种影响?" 此外,研究表明超参数会影响机器学习模型的公平性,而集成超参数的影响更为复杂,因其决定了不同类别集成中学习器的组合方式。理解集成超参数对公平性的作用,将有助于开发者设计公平的集成模型。然而目前针对不同集成算法的该类问题尚未得到充分研究。本文对四类主流现实集成算法——装袋(bagging)、提升(boosting)、堆叠(stacking)与投票(voting)——展开了全面研究。我们基于Kaggle平台上的四个主流公平性数据集构建了包含168个集成模型的基准测试集,并利用现有公平性度量指标分析公平性的构成。实验结果表明,无需使用偏见缓解技术即可设计出更公平的集成模型;同时我们还揭示了公平性构成与数据特征之间的关联,可为公平集成学习的设计提供指导。最后,本基准测试集可用于后续公平集成学习的相关研究。据我们所知,本文是目前文献中首批且规模最大的关于集成学习公平性构成的研究之一。
## 索引
> 1. 数据集 <br>
- [人口普查成人数据集(Adult Census)](https://gitlab.com/anonymousdot/fair-ensemble/-/tree/main/AdultNoteBook/Data) <br>
- [银行营销数据集(Bank Marketing)](BankMarketingNoteBook/Data) <br>
- [泰坦尼克号数据集(Titanic)](Titanic/Data) <br>
- [德国信贷数据集(German Credit)](GermanCredit/Data) <br>
> 2. 基准测试集
- 本研究中使用的所有集成模型及其脚本均存放于以下目录: <br>
- [人口普查成人数据集(Adult Census)](https://gitlab.com/anonymousdot/fair-ensemble/-/tree/main/AdultNoteBook/Kernels) <br>
- [银行营销数据集(Bank Marketing)](BankMarketingNoteBook/Kernels) <br>
- [泰坦尼克号数据集(Titanic)](Titanic/Kernels) <br>
- [德国信贷数据集(German Credit)](GermanCredit/Kernels) <br>
> 3. 实验结果
- 为便于结果复现与验证,我们提供了精确的训练/测试划分、保存的模型文件(.pkl格式)以及以.csv格式存储的评测指标。注意:由于部分模型存在随机化过程,输出结果可能存在小幅波动,我们通过10次运行取均值的方式以降低方差。 <br>
- [人口普查成人数据集(Adult Census)](https://gitlab.com/anonymousdot/fair-ensemble/-/tree/main/AdultNoteBook/Results) <br>
- [银行营销数据集(Bank Marketing)](BankMarketingNoteBook/Results) <br>
- [泰坦尼克号数据集(Titanic)](Titanic/Results) <br>
- [德国信贷数据集(German Credit)](GermanCredit/Results) <br>
提供机构:
UsmanGohar
原始信息汇总
数据集概述
数据集名称
- Fair Ensembles
数据集内容
- 包含168个集成模型的基准数据,用于研究集成机器学习中的公平性及其组成。
数据集组成部分
-
数据集
- Adult Census
- Bank Marketing
- Titanic
- German Credit
-
基准
- 所有用于研究的集成模型及其脚本,分布在以下目录:
- Adult Census
- Bank Marketing
- Titanic
- German Credit
- 所有用于研究的集成模型及其脚本,分布在以下目录:
-
结果
- 提供训练/测试分割、保存的模型(.pkl)和测量结果的.csv文件,用于结果的再现和验证。
- Adult Census
- Bank Marketing
- Titanic
- German Credit
- 提供训练/测试分割、保存的模型(.pkl)和测量结果的.csv文件,用于结果的再现和验证。
数据集用途
- 用于理解和研究集成机器学习中公平性的组成,以及集成参数对公平性的影响。
- 可用于进一步研究集成机器学习的公平性。



