FedGraphNN

Name: FedGraphNN
Creator: 南加州大学维特比工程学院
Published: 2021-09-08 08:22:55
License: 暂无描述

arXiv2021-09-08 更新2024-06-21 收录

下载链接：

https://github.com/FedML-AI/FedGraphNN

下载链接

链接失效反馈

官方服务：

资源简介：

FedGraphNN是一个开放的联邦学习基准系统，专注于图神经网络（GNN）。该数据集包含36个来自分子、蛋白质、知识图谱、推荐系统、引文网络和社交网络等7个领域的数据集。数据集的创建旨在通过联邦学习保护数据隐私，同时解决大规模图数据集的训练挑战。FedGraphNN支持多种流行的GNN模型和联邦学习算法，通过高效的系统支持，促进了跨领域的研究和应用。

FedGraphNN is an open federated learning benchmark system focused on graph neural networks (GNNs). This dataset suite includes 36 datasets spanning 7 domains, namely molecular science, proteomics, knowledge graphs, recommendation systems, citation networks and social networks. The dataset suite was developed to protect data privacy via federated learning while addressing the training challenges of large-scale graph datasets. FedGraphNN supports a wide range of popular GNN models and federated learning algorithms, and its efficient system infrastructure promotes cross-domain research and applications.

提供机构：

南加州大学维特比工程学院

创建时间：

2021-04-15

搜集汇总

数据集介绍

构建方式

在联邦学习与图神经网络交叉领域，FedGraphNN数据集的构建体现了对现实场景中图数据分布特性的深刻洞察。该数据集系统性地整合了来自分子机器学习、生物信息学、推荐系统、知识图谱、社交网络等七个领域的36个公开及专有图数据集，并依据实际应用中的分布式图场景，将其划分为图级别、子图级别和节点级别三种联邦学习设置。构建过程中，研究者采用了基于潜在狄利克雷分配（LDA）的划分算法，以合成具有统计意义的非独立同分布数据划分，模拟真实世界中因数据源异构性导致的数据分布差异。此外，针对特定领域如药物发现，还引入了如hERG等新型大规模图数据集，并通过与工业界合作获取了如腾讯用户-群组关系图等专有数据，确保了数据集的多样性与现实代表性。

使用方法

FedGraphNN数据集的设计旨在为联邦图神经网络研究提供一个标准化、易用的基准平台。研究者可通过其集成的开源系统，便捷地加载预处理的图数据集，这些数据集已根据三种联邦学习设置进行了划分与格式化。系统支持包括GCN、GAT、GraphSAGE在内的多种主流图神经网络模型，以及FedAvg、FedOPT等联邦学习算法，用户可通过高级API以少量代码启动跨机构的联邦训练实验。在跨孤岛的实际部署场景中，系统通过基于Docker的容器化方案和高效的远程过程调用通信，支持在多台边缘服务器上进行分布式训练，并能集成轻量级安全聚合协议以保障模型权重传输的隐私性。这使得研究者既能进行算法效果的公平对比，也能评估系统在通信、计算效率以及安全性方面的实际性能。

背景与挑战

背景概述

随着图神经网络在药物发现、社交网络等领域的广泛应用，数据隐私与商业竞争使得集中式图数据训练面临严峻挑战。FedGraphNN由南加州大学、埃默里大学、伊利诺伊大学芝加哥分校及腾讯AI实验室等机构的研究团队于2021年联合创建，旨在构建首个面向图神经网络的联邦学习基准系统。该系统通过统一框架整合了来自分子、蛋白质、知识图谱等7个领域的36个数据集，并支持多种图神经网络模型与联邦学习算法，为隐私保护下的分布式图学习研究提供了标准化平台，显著推动了跨机构协作的图智能发展。

当前挑战

FedGraphNN致力于解决联邦图神经网络训练中的核心挑战：在非独立同分布数据划分下，联邦图神经网络的性能普遍低于集中式训练，且最优模型在两种场景下可能不一致，这揭示了图结构异质性对联邦学习的复杂影响。在构建过程中，研究团队面临多重挑战：需设计统一框架以涵盖图级、子图级和节点级三种联邦学习场景；需合成可复现的非独立同分布数据划分以模拟真实数据隔离；还需开发高效安全的分布式训练系统，集成轻量级安全聚合算法，以支持大规模图数据的跨机构协作训练。

常用场景

经典使用场景

在分布式图数据学习领域，FedGraphNN作为首个联邦图神经网络基准系统，其经典使用场景集中于跨机构协作下的隐私保护图模型训练。该系统通过整合36个跨7个领域的数据集，支持图级、子图级和节点级三种联邦学习范式，为分子属性预测、社交网络分析、推荐系统等任务提供标准化评估框架。研究者可利用其模块化设计，在模拟真实数据分布的场景中，系统性地比较不同图神经网络模型与联邦学习算法的性能，尤其擅长处理因隐私限制而无法集中训练的大规模非独立同分布图数据。

解决学术问题

FedGraphNN系统性地解决了联邦图学习领域的三大核心学术问题：一是填补了缺乏统一评估基准的空白，通过提供多领域数据集与标准化非独立同分布划分方法，使跨机构图数据协作研究具有可复现性；二是揭示了联邦图神经网络训练中的关键挑战，如非独立同分布数据导致的性能下降、中心化最优模型在联邦场景中失效等现象；三是构建了安全高效的分布式训练框架，集成轻量级安全聚合算法，为隐私敏感场景下的图模型协作训练提供了可靠解决方案，推动了图学习与隐私计算交叉领域的方法论创新。

实际应用

在现实应用层面，FedGraphNN已成功支撑多个高价值场景的落地探索。药物研发领域，制药机构可利用其分子图数据集进行跨机构毒性预测协作，在保护商业机密的前提下提升模型泛化能力；社交平台通过节点级联邦设置，在用户自我网络中进行兴趣预测而不暴露原始社交关系；电商推荐系统借助子图级划分，使不同商户能基于局部用户-商品交互数据联合训练推荐模型。腾讯等企业已将系统应用于实际业务场景，验证了其在保护用户隐私的同时提升图模型性能的工程可行性。

数据集最近研究