Tolokers-Fair, FB-Penn94-Fair, Pokec-Fair

Name: Tolokers-Fair, FB-Penn94-Fair, Pokec-Fair
Creator: 密歇根大学
Published: 2024-10-06 05:21:40
License: 暂无描述

arXiv2024-10-06 更新2024-10-09 收录

下载链接：

http://arxiv.org/abs/2410.04287v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了三个新的GNN公平性基准数据集：Tolokers-Fair、FB-Penn94-Fair和Pokec-Fair。这些数据集由密歇根大学的研究人员创建，旨在解决图神经网络（GNN）中的公平性问题。每个数据集都包含了多样化的局部同质性水平，以便研究在不同分布外（OOD）设置下的公平性问题。数据集的创建过程包括提取最大连通组件并确保数据集具有明确的敏感属性信息。这些数据集的应用领域主要集中在节点分类任务中的公平性评估，旨在解决因局部同质性差异导致的预测不公平问题。

This paper introduces three novel GNN fairness benchmark datasets: Tolokers-Fair, FB-Penn94-Fair, and Pokec-Fair. Developed by researchers from the University of Michigan, these datasets are designed to address fairness issues in Graph Neural Networks (GNNs). Each dataset features diverse levels of local homophily, enabling studies on fairness problems under various out-of-distribution (OOD) settings. The dataset creation process involves extracting the largest connected component and ensuring that the datasets have clear sensitive attribute information. The primary application of these datasets focuses on fairness evaluation for node classification tasks, aiming to solve prediction unfairness caused by disparities in local homophily.

提供机构：

密歇根大学

创建时间：

2024-10-06

搜集汇总

数据集介绍

构建方式

该数据集通过引入三种新的图神经网络（GNN）公平性基准来构建，这些基准具有多样化的局部同质性水平，易于复现，并且具有有意义的公平性任务。具体而言，Tolokers-Fair、FB-Penn94-Fair和Pokec-Fair数据集分别从Tolokers众包平台、Facebook社交网络和Pokec社交网络中提取，并设计了与公平性相关的学习任务。这些数据集的构建旨在解决现有基准在同质性变异性、预处理信息和敏感属性定义方面的不足，从而为研究图神经网络中的公平性问题提供更全面的工具。

特点

这些数据集的主要特点在于其多样化的局部同质性水平和明确的公平性任务。Tolokers-Fair数据集关注平台用户的语言偏见，FB-Penn94-Fair数据集则探讨大学专业中的性别不平等问题，而Pokec-Fair数据集则聚焦于职业预测中的性别偏见。此外，这些数据集还通过半合成图生成策略，精确控制图的局部同质性分布，从而能够更深入地探索不同同质性模式下的公平性问题。

使用方法

这些数据集主要用于研究图神经网络在节点分类任务中的公平性问题。研究者可以通过分析这些数据集，探讨局部同质性水平对GNN公平性的影响，并评估不同GNN设计在处理公平性问题上的效果。具体使用方法包括：首先，利用这些数据集训练GNN模型；其次，通过改变训练和测试集的局部同质性分布，模拟分布外（OOD）问题；最后，评估模型在不同同质性水平下的公平性和性能表现，以揭示图结构中同质性信息对公平性的潜在影响。

背景与挑战

背景概述

Tolokers-Fair, FB-Penn94-Fair, 和 Pokec-Fair 数据集是由密歇根大学的 Donald Loveland 和 Danai Koutra 创建的，旨在解决图神经网络（GNN）中的公平性问题。这些数据集特别关注局部同质性（local homophily）对GNN公平性的影响。局部同质性是指图中节点与其邻居节点具有相同类别标签的倾向性。研究团队通过引入三个新的GNN公平性基准，以及一个新颖的半合成图生成器，来实证研究局部同质性导致的公平性问题。这些数据集的创建旨在揭示局部同质性如何导致不公平的预测，特别是在用户中心应用中，当存在代表性不足的同质性水平时。

当前挑战

这些数据集面临的挑战主要集中在两个方面：一是解决的领域问题，即图像分类的挑战；二是构建过程中所遇到的挑战。在领域问题方面，GNN在处理同时具有同质性（homophily）和异质性（heterophily）的图时，往往难以泛化。具体来说，GNN在局部同质性水平与全局同质性水平显著不同的节点上表现不佳。在构建过程中，研究团队遇到了数据集基准不足的问题，主要表现为同质性变异性有限、预处理信息不足以及敏感属性定义不明确。这些问题共同阻碍了GNN公平性研究的进展，特别是在处理局部同质性导致的公平性问题上。

常用场景

经典使用场景

Tolokers-Fair, FB-Penn94-Fair, 和 Pokec-Fair 数据集主要用于研究图神经网络（GNN）中的公平性问题。这些数据集通过模拟不同程度的同质性（homophily）和异质性（heterophily）来评估GNN在处理不平衡同质性水平时的表现。经典的使用场景包括节点分类任务，其中模型需要根据节点的局部同质性水平进行预测，同时确保对不同敏感属性的节点公平对待。

实际应用

在实际应用中，这些数据集可用于开发和验证针对社交网络、推荐系统等领域的公平性算法。例如，在社交网络中，确保不同语言或性别用户的公平性是一个重要问题。通过使用这些数据集，开发者可以训练和测试模型，确保其在处理具有不同局部同质性水平的节点时能够公平地进行预测，从而避免对某些用户群体的歧视。

衍生相关工作

基于这些数据集，研究者们已经开展了一系列相关工作，包括提出新的GNN公平性基准、开发半合成图生成器以模拟多样化的局部同质性分布，以及进行广泛的实证分析以揭示局部同质性对公平性的影响。这些工作不仅深化了对GNN公平性的理解，还为未来的研究提供了新的方向，如如何设计更公平的GNN架构以及如何在实际应用中实施这些模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集