five

OpenFGL|联邦图学习数据集|隐私保护数据集

收藏
arXiv2024-08-29 更新2024-08-31 收录
联邦图学习
隐私保护
下载链接:
https://github.com/xkLi-Allen/OpenFGL
下载链接
链接失效反馈
资源简介:
OpenFGL是由北京理工大学等机构创建的综合性联邦图学习基准数据集,包含38个数据集,覆盖16个应用领域。数据集内容丰富,包括图神经网络的节点、链接和图级别任务,旨在解决大规模图学习中的隐私和可扩展性问题。数据集的创建过程结合了8种联邦数据模拟策略和18种最新的SOTA算法,通过统一的API进行评估。OpenFGL主要应用于隐私敏感场景下的图学习任务,如金融欺诈检测和推荐系统。
提供机构:
北京理工大学, 中山大学, 北京大学, 北京交通大学
创建时间:
2024-08-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenFGL是一个全面的联邦图学习(FGL)基准测试平台,旨在解决联邦图学习在不同应用背景和实验设置中的公平评估问题。该数据集整合了38个来自16个应用领域的图数据集,8种强调图属性的联邦数据模拟策略,以及5种基于图的下游任务。OpenFGL还提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行封装,以实现对这些算法的有效性、鲁棒性和效率的全面比较和评估。
使用方法
使用OpenFGL的方法包括:首先,通过OpenFGL的API加载所需的FGL算法和图数据集;其次,根据具体的应用场景和实验需求,选择合适的联邦数据模拟策略;然后,在客户端进行本地训练,并将更新后的模型参数上传到服务器;最后,服务器对来自所有客户端的模型参数进行聚合,以生成全局模型。
背景与挑战
背景概述
随着图神经网络(GNN)在现实世界中的广泛应用,如节点级别的金融欺诈检测、链接级别的推荐系统以及图级别的生物信息学等领域,隐私法规的日益严格以及大数据学习中的可扩展性挑战使得直接数据共享变得困难。为了解决这个问题,联邦图学习(FGL)作为一种无需直接数据共享的分布式训练范式应运而生。OpenFGL是一个全面的基准测试平台,旨在为FGL的两个主要场景——Graph-FL和Subgraph-FL提供统一的评估。它包含了来自16个应用领域的38个图数据集、8种强调图属性的联邦数据模拟策略以及5个基于图的下游任务。OpenFGL还提供了18种最新提出的SOTA FGL算法,并通过用户友好的API进行整合,以便于对它们的有效性、鲁棒性和效率进行全面的比较和评估。
当前挑战
尽管FGL在解决大规模图学习中的可扩展性挑战方面具有巨大潜力,但仍面临着一些挑战。首先,FGL算法的有效性受到图数据分布的影响,需要更精确地量化分布式图中的统计信息。其次,FGL算法在处理数据噪声、低客户端参与度、数据稀疏性以及复杂应用中的泛化能力方面存在挑战。此外,FGL算法的效率也是一大挑战,需要开发新的联邦协作范式,以提高算法的可扩展性并降低通信成本。最后,FGL算法在隐私保护方面也面临挑战,需要在预测性能和隐私保护之间找到平衡点。
常用场景
经典使用场景
OpenFGL数据集主要应用于联邦图学习(FGL)领域,旨在解决多个本地系统间在无直接数据共享的情况下进行图神经网络训练的问题。该数据集适用于两种主要的FGL场景:图联邦学习(Graph-FL)和子图联邦学习(Subgraph-FL)。OpenFGL包含了来自16个应用领域的38个图数据集,8种强调图属性的联邦数据模拟策略,以及5个基于图的下游任务。此外,它提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行综合比较和全面评估,以测试这些算法的有效性、鲁棒性和效率。
解决学术问题
OpenFGL数据集解决了FGL领域存在的公平评估挑战。现有的FGL基准测试,如FS-G和FedGraphNN,在数据集、算法和实验设置方面存在局限性。OpenFGL通过集成更广泛的应用领域数据集、最新的SOTA算法和多种实验设置,为FGL研究提供了更全面的基准测试,有助于推动该领域的发展。
实际应用
OpenFGL数据集的实际应用场景包括药物发现、金融欺诈检测、推荐系统、生物信息学和交通流量预测等领域。在这些场景中,FGL技术可以帮助多个本地系统在不共享数据的情况下进行协同训练,从而提高模型性能,同时保护数据隐私。
数据集最近研究
最新研究方向
OpenFGL数据集作为联邦图学习(FGL)领域的一个综合基准,旨在解决现有FGL基准在数据集、算法和实验设置方面的局限性。该数据集涵盖了38个来自16个应用领域的图数据集,包括8种强调图属性的联邦数据模拟策略和5种基于图的下游任务。OpenFGL还提供了18种最近提出的SOTA FGL算法,并通过用户友好的API进行全面的比较和评估。该数据集的提出填补了FGL领域在公平评估方面的空白,为FGL算法的有效性、鲁棒性和效率提供了有价值的见解,并为未来的探索提供了方向。
相关研究论文
  • 1
    OpenFGL: A Comprehensive Benchmarks for Federated Graph Learning北京理工大学, 中山大学, 北京大学, 北京交通大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录