five

OpenFGL

收藏
arXiv2024-08-29 更新2024-08-31 收录
下载链接:
https://github.com/xkLi-Allen/OpenFGL
下载链接
链接失效反馈
官方服务:
资源简介:
OpenFGL是由北京理工大学等机构创建的综合性联邦图学习基准数据集,包含38个数据集,覆盖16个应用领域。数据集内容丰富,包括图神经网络的节点、链接和图级别任务,旨在解决大规模图学习中的隐私和可扩展性问题。数据集的创建过程结合了8种联邦数据模拟策略和18种最新的SOTA算法,通过统一的API进行评估。OpenFGL主要应用于隐私敏感场景下的图学习任务,如金融欺诈检测和推荐系统。

OpenFGL is a comprehensive federated graph learning benchmark dataset created by Beijing Institute of Technology and other institutions. It comprises 38 datasets spanning 16 application domains, with rich content covering node-level, link-level and graph-level tasks for graph neural networks. OpenFGL aims to address the privacy and scalability issues in large-scale graph learning. Its development integrates 8 federated data simulation strategies and 18 cutting-edge state-of-the-art (SOTA) algorithms, with all evaluations conducted via a unified API. OpenFGL is primarily applied to graph learning tasks in privacy-sensitive scenarios such as financial fraud detection and recommendation systems.
提供机构:
北京理工大学, 中山大学, 北京大学, 北京交通大学
创建时间:
2024-08-29
搜集汇总
数据集介绍
main_image_url
构建方式
OpenFGL是一个全面的联邦图学习(FGL)基准测试平台,旨在解决联邦图学习在不同应用背景和实验设置中的公平评估问题。该数据集整合了38个来自16个应用领域的图数据集,8种强调图属性的联邦数据模拟策略,以及5种基于图的下游任务。OpenFGL还提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行封装,以实现对这些算法的有效性、鲁棒性和效率的全面比较和评估。
使用方法
使用OpenFGL的方法包括:首先,通过OpenFGL的API加载所需的FGL算法和图数据集;其次,根据具体的应用场景和实验需求,选择合适的联邦数据模拟策略;然后,在客户端进行本地训练,并将更新后的模型参数上传到服务器;最后,服务器对来自所有客户端的模型参数进行聚合,以生成全局模型。
背景与挑战
背景概述
随着图神经网络(GNN)在现实世界中的广泛应用,如节点级别的金融欺诈检测、链接级别的推荐系统以及图级别的生物信息学等领域,隐私法规的日益严格以及大数据学习中的可扩展性挑战使得直接数据共享变得困难。为了解决这个问题,联邦图学习(FGL)作为一种无需直接数据共享的分布式训练范式应运而生。OpenFGL是一个全面的基准测试平台,旨在为FGL的两个主要场景——Graph-FL和Subgraph-FL提供统一的评估。它包含了来自16个应用领域的38个图数据集、8种强调图属性的联邦数据模拟策略以及5个基于图的下游任务。OpenFGL还提供了18种最新提出的SOTA FGL算法,并通过用户友好的API进行整合,以便于对它们的有效性、鲁棒性和效率进行全面的比较和评估。
当前挑战
尽管FGL在解决大规模图学习中的可扩展性挑战方面具有巨大潜力,但仍面临着一些挑战。首先,FGL算法的有效性受到图数据分布的影响,需要更精确地量化分布式图中的统计信息。其次,FGL算法在处理数据噪声、低客户端参与度、数据稀疏性以及复杂应用中的泛化能力方面存在挑战。此外,FGL算法的效率也是一大挑战,需要开发新的联邦协作范式,以提高算法的可扩展性并降低通信成本。最后,FGL算法在隐私保护方面也面临挑战,需要在预测性能和隐私保护之间找到平衡点。
常用场景
经典使用场景
OpenFGL数据集主要应用于联邦图学习(FGL)领域,旨在解决多个本地系统间在无直接数据共享的情况下进行图神经网络训练的问题。该数据集适用于两种主要的FGL场景:图联邦学习(Graph-FL)和子图联邦学习(Subgraph-FL)。OpenFGL包含了来自16个应用领域的38个图数据集,8种强调图属性的联邦数据模拟策略,以及5个基于图的下游任务。此外,它提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行综合比较和全面评估,以测试这些算法的有效性、鲁棒性和效率。
解决学术问题
OpenFGL数据集解决了FGL领域存在的公平评估挑战。现有的FGL基准测试,如FS-G和FedGraphNN,在数据集、算法和实验设置方面存在局限性。OpenFGL通过集成更广泛的应用领域数据集、最新的SOTA算法和多种实验设置,为FGL研究提供了更全面的基准测试,有助于推动该领域的发展。
实际应用
OpenFGL数据集的实际应用场景包括药物发现、金融欺诈检测、推荐系统、生物信息学和交通流量预测等领域。在这些场景中,FGL技术可以帮助多个本地系统在不共享数据的情况下进行协同训练,从而提高模型性能,同时保护数据隐私。
数据集最近研究
最新研究方向
OpenFGL数据集作为联邦图学习(FGL)领域的一个综合基准,旨在解决现有FGL基准在数据集、算法和实验设置方面的局限性。该数据集涵盖了38个来自16个应用领域的图数据集,包括8种强调图属性的联邦数据模拟策略和5种基于图的下游任务。OpenFGL还提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行全面的比较和评估。该数据集的提出填补了FGL领域在公平评估方面的空白,为FGL算法的有效性、鲁棒性和效率提供了有价值的见解,并为未来的探索提供了方向。
相关研究论文
  • 1
    OpenFGL: A Comprehensive Benchmarks for Federated Graph Learning北京理工大学, 中山大学, 北京大学, 北京交通大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作