SchoolPerformance

Name: SchoolPerformance
Creator: 根特大学
Published: 2024-09-25 22:26:07
License: 暂无描述

arXiv2024-09-25 更新2024-09-27 收录

下载链接：

https://github.com/aida-ugent/abcfair

下载链接

链接失效反馈

官方服务：

资源简介：

SchoolPerformance数据集由根特大学创建，包含856条记录，主要用于评估教育领域的公平性方法。该数据集包含偏见和较少偏见的标签，用于模拟真实世界中的偏见情况，同时评估准确性和公平性。数据集的创建过程涉及收集人类对学生酒精消费数据集的预测结果，并将其与实际结果进行对比。该数据集主要应用于AI公平性研究，旨在解决算法偏见问题，特别是在教育领域的应用。

The SchoolPerformance dataset was developed by Ghent University, comprising 856 records, and is primarily utilized to assess fairness-related methodologies in the education domain. This dataset includes biased and less-biased labels, which are used to simulate real-world bias scenarios while evaluating both model accuracy and fairness. The creation process of the dataset involved collecting human-generated prediction results for the student alcohol consumption dataset and comparing these predictions with the actual outcomes. Primarily applied in AI fairness research, this dataset aims to address algorithmic bias issues, with a particular focus on educational applications.

提供机构：

根特大学

创建时间：

2024-09-25

搜集汇总

数据集介绍

构建方式

SchoolPerformance数据集的构建基于'Student Alcohol Consumption'数据集，通过收集人类对学生学业成绩的预测标签来生成偏见标签，而实际的学业成绩则作为无偏见标签。数据集包括性别和父母教育程度作为敏感特征，并去除了与标签相关的特征和学生ID。

特点

SchoolPerformance数据集的独特之处在于其双标签设计，包含偏见和无偏见标签，这使得研究者能够在模拟真实世界偏见的同时，评估模型在无偏见数据上的表现。此外，数据集的敏感特征选择和预处理步骤确保了数据的实用性和公平性分析的准确性。

使用方法

使用SchoolPerformance数据集时，研究者可以训练模型使用偏见标签，同时在无偏见标签上进行评估，以挑战公平性与准确性之间的权衡。数据集支持多种公平性方法的比较，包括预处理、处理中和后处理方法，以及不同公平性定义和输出分布的配置。

背景与挑战

背景概述

SchoolPerformance数据集由Ghent大学的MaryBeth Defrance、Maarten Buyl和Tijl De Bie等人创建，旨在评估机器学习模型在处理教育领域中的公平性问题。该数据集包含学生学业表现的相关信息，并引入了偏见和无偏见的标签，以模拟现实世界中的数据偏见。通过这种方式，研究人员可以更准确地评估和比较不同公平性方法在缓解偏见方面的效果。SchoolPerformance数据集的引入，为教育领域的公平性研究提供了一个重要的基准，有助于推动该领域的发展。

当前挑战

SchoolPerformance数据集在构建和应用过程中面临多项挑战。首先，数据集需要处理教育领域中的复杂偏见问题，这要求模型在保持预测准确性的同时，确保公平性。其次，数据集的构建过程中，如何准确地标注偏见和无偏见的标签，是一个技术上的难题。此外，该数据集在应用时，需要考虑不同公平性方法在不同干预阶段（预处理、处理中、后处理）的效果，以及这些方法在不同敏感特征组合和输出分布下的表现。这些挑战使得SchoolPerformance数据集在实际应用中需要更加精细的配置和评估。

常用场景

经典使用场景

SchoolPerformance数据集在公平性方法比较中扮演了经典角色，特别是在评估预处理、处理中和后处理方法的公平性时。该数据集通过包含偏见和无偏见的标签，使得研究者能够在模拟真实世界设置的同时，评估模型在较少偏见标签上的准确性和公平性。这种双标签设计挑战了公平性与准确性之间的权衡，为公平性方法的实际效果提供了深入洞察。

衍生相关工作

基于SchoolPerformance数据集，研究者们开发了多种公平性评估工具和框架，如ABCFair。这些工具和框架不仅扩展了数据集的应用范围，还促进了公平性方法的标准化和比较。此外，该数据集还激发了对公平性定义和评估方法的深入研究，推动了公平性领域的理论和实践进步。

数据集最近研究