five

DGraph

收藏
arXiv2023-06-09 更新2024-06-21 收录
下载链接:
https://dgraph.xinye.com/
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
DGraph是由浙江大学和Finvolution Group合作创建的一个大规模金融领域动态图数据集,专注于图异常检测。该数据集包含超过300万个节点和400万条动态边,以及100万个标记节点,用于识别金融欺诈行为。DGraph通过提供丰富的节点和边信息,以及详细的节点特征和时间动态,旨在帮助研究人员深入探索异常节点的特性。此外,数据集还包含超过200万个背景节点,这些节点在网络结构中扮演重要角色,有助于更准确地识别异常节点。DGraph的应用领域主要集中在金融欺诈检测,旨在通过网络结构信息和经典异常检测方法来识别和预防金融欺诈行为。

DGraph is a large-scale dynamic graph dataset in the financial domain, co-developed by Zhejiang University and Finvolution Group, focusing on graph-based anomaly detection. This dataset contains over 3 million nodes, 4 million dynamic edges, and 1 million labeled nodes for financial fraud identification. By providing rich node and edge information, detailed node features and temporal dynamics, DGraph aims to help researchers conduct in-depth exploration of the characteristics of anomalous nodes. In addition, the dataset includes more than 2 million background nodes, which play critical roles in the network topology and contribute to more accurate identification of anomalous nodes. The primary application field of DGraph is financial fraud detection, which aims to identify and prevent financial fraud by leveraging network structural information and classical anomaly detection methods.
提供机构:
浙江大学
创建时间:
2022-06-30
搜集汇总
数据集介绍
main_image_url
构建方式
DGraph数据集的构建基于金融领域的真实社交网络数据,由Finvolution Group提供。该数据集包含超过300万节点和400万动态边,节点代表Finvolution用户,边表示用户之间的紧急联系人关系。数据集的构建过程分为三个步骤:首先,通过用户的紧急联系人记录构建网络结构;其次,基于用户的基本个人信息构建节点特征;最后,根据用户的借贷行为对节点进行标注,区分正常用户和欺诈用户。此外,数据集还保留了超过200万的背景节点,这些节点虽无借贷行为,但对网络的连通性和欺诈检测具有重要意义。
特点
DGraph数据集具有显著的特点,首先,它是一个大规模动态图,包含丰富的时序信息,能够反映用户行为的时间变化。其次,数据集中欺诈节点和正常节点在网络结构、邻居分布和时序动态上表现出显著差异,这为欺诈检测提供了多维度的分析依据。此外,数据集中的背景节点虽然不直接参与欺诈检测,但对网络的连通性和语义信息的丰富性具有重要作用。最后,数据集中存在大量的缺失值,这为研究如何处理图数据中的缺失值提供了实验基础。
使用方法
DGraph数据集的使用方法主要围绕图异常检测(GAD)任务展开。研究者可以通过该数据集评估现有的图神经网络(GNN)和异常检测算法的性能。数据集提供了丰富的节点特征和动态边信息,支持多种图学习任务,如节点分类、链接预测和异常检测。此外,数据集的背景节点和缺失值特性为研究者提供了新的研究方向,如如何有效利用背景节点提升模型性能,以及如何处理图数据中的缺失值。数据集还提供了在线排行榜,方便研究者跟踪最新方法的进展并进行性能评估。
背景与挑战
背景概述
DGraph是由浙江大学、Finvolution Group、复旦大学和École Polytechnique的研究团队于2022年提出的一个大规模金融领域动态图数据集,旨在推动图异常检测(Graph Anomaly Detection, GAD)领域的研究。该数据集包含约300万节点、400万动态边和100万带有真实标签的节点,覆盖了金融欺诈检测的实际应用场景。DGraph的提出弥补了现有GAD数据集在时间动态性、规模以及背景节点信息等方面的不足,为学术界和工业界提供了一个更具挑战性和实用性的基准数据集。通过DGraph,研究人员可以更深入地探索异常节点在网络结构、邻居分布和时间动态性等方面的特征,从而推动GAD算法的进一步发展。
当前挑战
DGraph的构建和应用面临多重挑战。首先,金融欺诈检测领域的异常节点通常具有极低的出现频率,导致数据极度不平衡,这对模型的泛化能力提出了严峻考验。其次,DGraph的动态性和大规模特性使得传统的图算法在计算效率和内存消耗上难以应对,尤其是在处理时间序列数据和背景节点时。此外,数据集中存在大量缺失值,如何有效处理这些缺失值以提升模型性能也是一个重要挑战。最后,背景节点的引入虽然丰富了网络结构信息,但也增加了模型设计的复杂性,如何在不损失背景节点信息的前提下提升异常检测的准确性,是未来研究的关键方向之一。
常用场景
经典使用场景
DGraph数据集在金融领域的图异常检测(GAD)研究中具有广泛的应用。其大规模动态图结构,包含超过300万节点和400万动态边,为研究者提供了一个真实世界的金融社交网络环境。通过分析节点之间的紧急联系人关系,DGraph能够有效捕捉欺诈者的异常行为模式,尤其是在金融欺诈检测中表现出色。该数据集不仅支持传统的图神经网络(GNN)方法,还为动态图模型提供了丰富的实验场景。
解决学术问题
DGraph解决了当前图异常检测研究中数据集稀缺和规模不足的问题。现有的GAD数据集通常规模较小,且缺乏动态信息,难以反映真实世界的复杂场景。DGraph通过提供大规模动态图数据,填补了这一空白。其包含的100万标注节点和200万背景节点,使得研究者能够更全面地探索异常节点的结构特征、邻居分布和时间动态。此外,DGraph还为处理缺失值和背景节点提供了新的研究挑战,推动了GAD方法的进一步发展。
衍生相关工作
DGraph的发布推动了图异常检测领域的多项经典工作。基于DGraph,研究者提出了多种改进的GNN模型,如TGAT和RGCN,这些模型能够更好地处理动态图和背景节点。此外,DGraph还激发了关于缺失值处理的研究,提出了多种填补缺失值的策略,如Trick B和IterativeImputer。这些工作不仅提升了GAD方法的性能,还为其他领域的图数据分析提供了新的思路。DGraph的在线排行榜和深度学习竞赛也吸引了大量研究者参与,进一步推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作