合成数据集、半合成数据集、真实世界数据集

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/XweiQ/Benchmark-GraphFairness

下载链接

链接失效反馈

官方服务：

资源简介：

本论文开发并引入了一系列合成、半合成和真实世界的数据集。这些数据集可以在`dataset`文件夹中找到。合成数据集允许通过`synthetic_config.yaml`中的参数调整偏差水平。半合成数据集通过`utils.py`中的函数`add_edges`和`remove_edges`生成，包括`germanA`、`creditA`和`bailA`。真实世界数据集来源于Twitter社交数据。

This paper develops and introduces a series of synthetic, semi-synthetic, and real-world datasets. These datasets can be found in the `dataset` folder. The synthetic datasets allow for the adjustment of bias levels through parameters in `synthetic_config.yaml`. The semi-synthetic datasets are generated using the functions `add_edges` and `remove_edges` in `utils.py`, including `germanA`, `creditA`, and `bailA`. The real-world datasets are derived from Twitter social data.

创建时间：

2024-03-08

原始信息汇总

数据集概述

数据集类型

合成数据集：可通过synthetic_config.yaml调整偏差水平，使用load_data.py保存或加载。
半合成数据集：通过utils.py中的add_edges和remove_edges函数生成，包括germanA, creditA, bailA。
真实世界数据集：源自Twitter社交数据，需从Google Drive下载。

数据集详情

数据集	节点数	边数	特征数	敏感属性	标签	平均度
Syn-1	5,000	34,363	48	0/1	0/1	13.75
Syn-2	5,000	44,949	48	0/1	0/1	17.98
New German	1,000	20,242	27	Gender (Male/Female)	Good/bad Credit	41.48
New Bail	18,876	31,5870	18	Race (Black/White)	Bail/no bail	34.47
New Credit	30,000	1,121,858	13	Age ($<$25/$>$25)	Payment default/no default	75.79
Sport	3,508	136,427	768	Race (White/Black)	NBA/MLB	78.78
Occupation	6,951	44,166	768	Gender (Male/Female)	Psy/CS	13.71

数据集使用

实验复现：使用script文件夹中的脚本，如bash ./script/gcn.sh。

引用信息

latex @misc{qian2024addressing, title={Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark}, author={Xiaowei Qian and Zhimeng Guo and Jialiang Li and Haitao Mao and Bingheng Li and Suhang Wang and Yao Ma}, year={2024}, eprint={2403.06017}, archivePrefix={arXiv}, primaryClass={cs.LG} }

搜集汇总

数据集介绍

构建方式

该数据集通过综合分析框架构建，涵盖了合成数据、半合成数据和真实世界数据。合成数据集通过调整`synthetic_config.yaml`中的参数来控制偏差水平，并可使用`load_data.py`保存或加载现有数据。半合成数据集通过`utils.py`中的`add_edges`和`remove_edges`函数生成，包括`germanA`、`creditA`和`bailA`三个新数据集。真实世界数据集则来源于Twitter社交数据，并可通过Google Drive下载。

特点

该数据集的显著特点在于其多样性和可调节性。合成数据集允许用户通过参数调整偏差水平，半合成数据集则通过边操作生成，具有较高的灵活性。真实世界数据集来源于社交媒体，具有较高的现实应用价值。此外，数据集提供了详细的统计信息，包括节点数量、边数量、特征数量等，便于用户进行深入分析。

使用方法

用户可通过运行`script`文件夹中的脚本进行实验复现，例如通过`gcn.sh`脚本训练GCN模型。数据集的加载和保存可通过`load_data.py`实现，参数调整则通过`synthetic_config.yaml`进行。用户还可以根据需求修改参数搜索空间或实现多线程训练，以适应不同的研究需求。

背景与挑战

背景概述

在图学习领域，公平性问题日益受到关注，尤其是在处理合成、半合成和真实世界数据集时。该数据集由Qian等人于2024年提出，旨在解决现有公平图学习数据集的不足，并建立一个新的基准。该研究的核心问题是如何在图数据中引入和控制偏差，以评估和改进公平性算法。数据集包括合成数据、半合成数据和来自Twitter的真实世界数据，涵盖了多个领域如信用评估、保释决策和职业分类等。通过调整参数和生成方法，研究者能够系统地分析和比较不同数据集在公平性上的表现，从而推动图学习领域的进一步发展。

当前挑战

该数据集的构建面临多重挑战。首先，合成和半合成数据集的生成需要精确控制偏差水平，这要求研究者设计复杂的参数调整机制。其次，从Twitter获取的真实世界数据集不仅数据量大，还涉及隐私和伦理问题，如何确保数据的合法性和公平性是一大难题。此外，数据集的多样性和复杂性使得在不同场景下的公平性评估变得尤为复杂，研究者需开发新的分析框架和算法以应对这些挑战。最后，如何在保持数据集多样性的同时，确保其在不同算法下的可复现性和稳定性，也是该数据集面临的重要问题。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在图学习领域的公平性研究中。通过提供合成、半合成和真实世界的数据集，研究者能够系统地探索和评估图神经网络（GNN）在处理敏感属性时的公平性表现。例如，研究者可以利用这些数据集训练图卷积网络（GCN），并通过调整数据集中的偏差参数，观察模型在不同偏差水平下的性能变化，从而为公平图学习算法的设计提供重要参考。

实际应用

在实际应用中，该数据集可广泛应用于金融、社交媒体和职业推荐系统等领域。例如，在金融领域，研究者可以利用该数据集评估信用评分模型在不同性别或种族群体中的公平性；在社交媒体中，数据集可用于分析用户网络中的偏见传播；在职业推荐系统中，数据集则有助于设计更加公平的推荐算法，确保不同背景的用户获得平等的机会。

衍生相关工作

基于该数据集，研究者已开展了一系列相关工作，特别是在公平图学习算法的改进和评估方面。例如，有研究通过调整数据集中的偏差参数，提出了新的公平性度量方法；还有研究利用半合成数据集，设计了能够自动检测和缓解偏差的图神经网络模型。这些工作不仅丰富了公平图学习的理论框架，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成