five

FairGAD

收藏
arXiv2024-02-25 更新2024-07-23 收录
下载链接:
https://github.com/nigelnnk/FairGAD
下载链接
链接失效反馈
官方服务:
资源简介:
FairGAD数据集由乔治亚理工学院的研究团队创建,包含两个子数据集,分别基于全球知名的社交媒体平台Reddit和Twitter。这些数据集包含120万和40万条边,分别关联9000和47000个节点,利用政治倾向作为敏感属性,错误信息传播者作为异常标签。数据集的创建旨在解决现有研究中缺乏包含实际图结构、异常标签和敏感属性的数据集问题,以推动公平图异常检测的研究。通过这些数据集,研究团队评估了现有图异常检测方法的性能和公平性,揭示了它们在处理FairGAD问题时的有效性和局限性。

The FairGAD dataset was developed by a research team at the Georgia Institute of Technology. It comprises two sub-datasets based on the globally renowned social media platforms Reddit and Twitter, respectively. The two sub-datasets contain 1.2 million and 0.4 million edges respectively, which are associated with 9,000 and 47,000 nodes, taking political orientation as the sensitive attribute and misinformation spreaders as the anomaly labels. The dataset was created to address the gap in existing research where datasets with real graph structures, anomaly labels and sensitive attributes are lacking, so as to advance research on fair graph anomaly detection. Using these datasets, the research team evaluated the performance and fairness of existing graph anomaly detection methods, and revealed their effectiveness and limitations when addressing FairGAD-related problems.
提供机构:
乔治亚理工学院
创建时间:
2024-02-25
原始信息汇总

数据集概述

数据集信息

环境要求

  • python=3.8
  • pytorch
  • pyg
  • networkx
  • scipy

实现细节

  • 公平性正则化器: 在 utils.py 文件中实现,包括 FairOD, HIN, correlation 和 ADCG 正则化器。
  • 模型修改: 对 DOMINANT, CONAD, CoLA, DONE, AdONE 进行了修改,并新增了 VGOD 文件,包含公平性正则化器。
  • 主要驱动文件: fairGAD/test_fair_fitting.py

用户账户查询与移除

  • 联系方式: 发送邮件至 nnnk [at] gatech [dot] edu,标题为 "FairGAD - Account Inquiry and Removal",包含用户名和平台(Reddit/Twitter)。

数据使用协议

  • 联系方式: 发送邮件至 nnnk [at] gatech [dot] edu,标题为 "FairGAD - Data Use Agreement"。

潜在的Twitter机器人

  • 节点索引: 包含可能的Twitter机器人账户的节点索引,Botometer "raw_overall" 分数大于0.9。

引用

  • 论文: 《Towards Fair Graph Anomaly Detection: Problem, New Datasets, and Evaluation》
  • 作者: Neo, Neng Kai Nigel 等
  • 日期: 2024-02-25
  • arXiv链接: arXiv链接
搜集汇总
数据集介绍
main_image_url
构建方式
FairGAD 数据集构建于全球知名的社交媒体平台 Reddit 和 Twitter 之上。研究人员收集了平台上用户的历史帖子、用户资料以及关注关系,通过构建用户之间的交互关系,形成了真实的图结构。其中,Reddit 数据集通过将 24 小时内发布相同子版块帖子的用户进行链接,构建了无向图;Twitter 数据集则通过用户之间的关注关系构建了有向图。此外,研究人员还利用 FACTOID 数据集,根据用户发布的链接内容,将用户分为左倾、右倾以及真实新闻/虚假新闻传播者,并将其作为敏感属性和异常标签。最终,研究人员选取了最大的连通子图作为数据集的最终结构。
特点
FairGAD 数据集具有以下特点:1) 强烈的敏感属性与异常标签之间的关联性;2) 由于社交平台的特点,图结构呈现出不同的密度和平均度;3) 相比于合成数据集,FairGAD 数据集展现出更低的属性偏差和结构偏差;4) Twitter 数据集具有更高的属性维度,使得异常检测更具挑战性。
使用方法
FairGAD 数据集可用于评估图异常检测方法的性能和公平性。研究人员可以将其作为基准数据集,测试现有的 GAD 方法在不同公平性指标下的表现,并分析其准确性-公平性权衡空间。此外,FairGAD 数据集还可以用于开发新的 FairGAD 方法,探索如何在保证检测准确性的同时,提高方法的公平性。
背景与挑战
背景概述
在信息检索、推荐系统、搜索排名和网络安全等众多领域,图异常检测(Graph Anomaly Detection, GAD)技术发挥着重要作用。它旨在识别图中特征与其他节点显著不同的异常节点,从而揭示潜在威胁和有害内容,实现预警、干预和高效决策。近年来,随着图神经网络(Graph Neural Networks, GNNs)的兴起,基于GNN的GAD方法备受关注。然而,现有的GAD研究往往忽略了公平性问题,即避免对敏感群体(如性别或政治倾向)产生偏见预测。为了填补这一空白,FairGAD数据集应运而生,它旨在准确检测输入图中的异常节点,同时确保公平性,避免对敏感群体的偏见预测。FairGAD数据集的创建时间为2024年,由Neng Kai Nigel Neo、Yeon-Chang Lee、Yiqiao Jin和Sang-Wook Kim等研究人员共同完成,主要研究问题是公平图异常检测,该数据集对相关领域的影响力在于提供了包含实际图结构、异常标签和敏感属性的现实数据集,为公平图异常检测研究提供了重要的数据基础。
当前挑战
FairGAD数据集面临着以下挑战: 1) 所解决的领域问题挑战:FairGAD旨在解决公平图异常检测问题,即准确检测图中异常节点的同时确保公平性。这要求GAD方法能够在识别异常节点的同时,避免对敏感群体产生偏见预测,这对于维护社会公平具有重要意义。 2) 构建过程中所遇到的挑战:FairGAD数据集的构建过程面临着以下挑战: a) 数据收集:从真实社交媒体平台(如Reddit和Twitter)收集数据,并进行数据清洗和预处理。 b) 异常标签和敏感属性的确定:根据用户行为和特征,确定异常标签和敏感属性。 c) 数据集的公平性评估:评估数据集是否存在属性偏差和结构偏差,确保数据集的公平性。 d) GAD方法的公平性评估:评估现有GAD方法在FairGAD数据集上的公平性表现,并探索改进方法。
常用场景
经典使用场景
FairGAD数据集被广泛应用于研究公平性在图异常检测中的重要性。该数据集包含真实世界的图结构、异常标签和敏感属性,例如政治倾向,这使得研究人员能够评估现有图异常检测方法的公平性和准确性。通过使用FairGAD数据集,研究人员可以探究如何在不牺牲准确性的情况下提高图异常检测方法的公平性,从而避免对特定敏感群体的歧视性预测。
解决学术问题
FairGAD数据集解决了现有图异常检测研究中缺乏公平性评估的问题。传统的图异常检测方法主要关注检测的准确性,而忽略了公平性,导致可能对敏感群体产生歧视性结果。FairGAD数据集提供了评估公平性的指标,例如统计公平性和机会均等性,使得研究人员可以评估现有方法的公平性,并探索如何改进这些方法以实现公平性和准确性的平衡。此外,FairGAD数据集还揭示了现有图异常检测方法在公平性方面的局限性,为未来的研究指明了方向。
衍生相关工作
FairGAD数据集的发布推动了公平图异常检测领域的研究。基于FairGAD数据集,研究人员可以探究如何改进现有图异常检测方法的公平性,例如通过引入公平性正则化器或图去偏方法。此外,FairGAD数据集还可以用于开发新的公平图异常检测方法,例如基于半监督学习的方法或结合图去偏和公平性正则化的方法。FairGAD数据集的发布为公平图异常检测领域的研究提供了重要的基础,并为未来的研究指明了方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作