FairGraphBase

Name: FairGraphBase
Creator: 大阪大学
Published: 2025-10-21 17:51:42
License: 暂无描述

arXiv2025-10-21 更新2025-10-23 收录

下载链接：

https://github.com/yuyas/MUSUB1FairGraphBase

下载链接

链接失效反馈

官方服务：

资源简介：

FairGraphBase数据集是基于YAGO、DBpedia和Wikidata三个知识图谱生成的大型图数据集，包含人的属性、关系和个人属性等信息。数据集的目标标签设置为职业，敏感属性设置为国籍和性别，旨在评估公平感知图神经网络在知识图谱中的公平性。数据集的生成过程包括从知识图谱中提取实体、个人属性和关系，并生成属性图。FairGraphBase数据集为公平感知图神经网络的研究提供了一个新的基准，有助于理解和解决公平性问题。

FairGraphBase is a large-scale graph dataset generated from three knowledge graphs: YAGO, DBpedia and Wikidata. It contains information such as human attributes, relational facts and personal attributes. The dataset takes occupation as its target label, and sets nationality and gender as the sensitive attributes, aiming to evaluate the fairness of fairness-aware graph neural networks when applied to knowledge graphs. The dataset construction process includes extracting entities, personal attributes and relational facts from the three source knowledge graphs, and generating attributed graphs. FairGraphBase provides a new benchmark for research on fairness-aware graph neural networks, helping to advance the understanding and resolution of fairness-related issues.

提供机构：

大阪大学

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

在知识图谱公平性研究领域，FairGraphBase数据集通过系统化流程从三大知识图谱（YAGO、DBpedia和Wikidata）中构建而成。首先提取所有人类实体及其属性与关系，随后生成属性图结构，其中节点表示个体，边代表社会关系，节点特征采用属性袋编码。该数据集特别设定职业作为预测标签，并选择国籍或性别作为敏感属性，以反映现实社会中的公平性问题。

特点

FairGraphBase数据集展现出与现有社交网络和合成图不同的统计特性，尤其在敏感属性与标签的同配性及相关性方面具有显著差异。其大规模真实世界数据覆盖数十万至百万级节点，提供了清晰的预测准确性与公平性指标间的权衡关系。该数据集还包含多维度评估框架，支持对预处理与处理中公平性方法的系统性比较。

使用方法

该数据集适用于节点分类任务的公平性评估，用户可通过标准化数据划分与多种图神经网络骨干模型进行实验。研究需结合三种早停条件（精度优化、F1优化及混合指标）分析性能权衡，并采用统计均等差与机会均等差等指标量化公平性。基准实现已集成八类公平性方法，支持可复现的跨数据集对比分析。

背景与挑战

背景概述

FairGraphBase数据集由大阪大学的研究团队于2025年创建，旨在解决知识图谱中图神经网络存在的预测偏见问题。该数据集基于YAGO、DBpedia和Wikidata三大知识图谱构建，通过提取人物实体及其属性关系，形成大规模图结构数据。其核心研究聚焦于评估公平感知图神经网络在节点分类任务中的性能，填补了现有公平性研究缺乏知识图谱基准的空白，对推荐系统等高影响力人工智能应用中的公平性保障具有重要推动作用。

当前挑战

该数据集面临的领域挑战在于知识图谱中敏感属性与目标标签间存在显著相关性，导致公平性与预测精度间的权衡更为尖锐，例如国籍与职业分类的强关联性加剧了群体公平性优化难度。构建过程中的挑战包括从异构知识图谱中高效提取并标准化人物属性与关系，确保敏感属性如性别和国籍的标注一致性，同时处理大规模图数据带来的计算复杂度与内存限制问题。

常用场景

经典使用场景

在知识图谱公平性研究领域，FairGraphBase数据集为评估图神经网络在敏感属性偏见缓解方面的性能提供了标准化测试平台。该数据集通过整合YAGO、DBpedia和Wikidata三大知识图谱中的人物属性与关系，构建了包含职业标签与性别、国籍等敏感属性的异质信息网络。研究人员通常采用节点分类任务框架，系统比较不同公平性增强方法在保持预测准确率与提升统计公平性之间的平衡能力，特别是在处理政治职业分类与艺术职业分类等具有社会敏感性的预测任务时展现出独特价值。

衍生相关工作

基于FairGraphBase的基准研究催生了多个重要研究方向的发展。公平感知的图Transformer架构通过引入注意力机制重构了敏感信息处理范式；图提示调优技术利用预训练模型参数实现了公平性与泛化能力的协同优化；解缠结表示学习方法通过分离敏感属性相关特征提升了模型的可解释性。这些衍生工作不仅拓展了公平性研究的理论深度，更推动了FairDrop、BIND等边缘修正算法在实际系统中的部署应用，形成了从基准评估到算法创新的完整研究生态。

数据集最近研究