five

DGraph|金融欺诈检测数据集|动态图分析数据集

收藏
arXiv2023-06-09 更新2024-06-21 收录
金融欺诈检测
动态图分析
下载链接:
https://dgraph.xinye.com/
下载链接
链接失效反馈
资源简介:
DGraph是由浙江大学和Finvolution Group合作创建的一个大规模金融领域动态图数据集,专注于图异常检测。该数据集包含超过300万个节点和400万条动态边,以及100万个标记节点,用于识别金融欺诈行为。DGraph通过提供丰富的节点和边信息,以及详细的节点特征和时间动态,旨在帮助研究人员深入探索异常节点的特性。此外,数据集还包含超过200万个背景节点,这些节点在网络结构中扮演重要角色,有助于更准确地识别异常节点。DGraph的应用领域主要集中在金融欺诈检测,旨在通过网络结构信息和经典异常检测方法来识别和预防金融欺诈行为。
提供机构:
浙江大学
创建时间:
2022-06-30
AI搜集汇总
数据集介绍
main_image_url
构建方式
DGraph数据集的构建基于金融领域的真实社交网络数据,由Finvolution Group提供。该数据集包含超过300万节点和400万动态边,节点代表Finvolution用户,边表示用户之间的紧急联系人关系。数据集的构建过程分为三个步骤:首先,通过用户的紧急联系人记录构建网络结构;其次,基于用户的基本个人信息构建节点特征;最后,根据用户的借贷行为对节点进行标注,区分正常用户和欺诈用户。此外,数据集还保留了超过200万的背景节点,这些节点虽无借贷行为,但对网络的连通性和欺诈检测具有重要意义。
特点
DGraph数据集具有显著的特点,首先,它是一个大规模动态图,包含丰富的时序信息,能够反映用户行为的时间变化。其次,数据集中欺诈节点和正常节点在网络结构、邻居分布和时序动态上表现出显著差异,这为欺诈检测提供了多维度的分析依据。此外,数据集中的背景节点虽然不直接参与欺诈检测,但对网络的连通性和语义信息的丰富性具有重要作用。最后,数据集中存在大量的缺失值,这为研究如何处理图数据中的缺失值提供了实验基础。
使用方法
DGraph数据集的使用方法主要围绕图异常检测(GAD)任务展开。研究者可以通过该数据集评估现有的图神经网络(GNN)和异常检测算法的性能。数据集提供了丰富的节点特征和动态边信息,支持多种图学习任务,如节点分类、链接预测和异常检测。此外,数据集的背景节点和缺失值特性为研究者提供了新的研究方向,如如何有效利用背景节点提升模型性能,以及如何处理图数据中的缺失值。数据集还提供了在线排行榜,方便研究者跟踪最新方法的进展并进行性能评估。
背景与挑战
背景概述
DGraph是由浙江大学、Finvolution Group、复旦大学和École Polytechnique的研究团队于2022年提出的一个大规模金融领域动态图数据集,旨在推动图异常检测(Graph Anomaly Detection, GAD)领域的研究。该数据集包含约300万节点、400万动态边和100万带有真实标签的节点,覆盖了金融欺诈检测的实际应用场景。DGraph的提出弥补了现有GAD数据集在时间动态性、规模以及背景节点信息等方面的不足,为学术界和工业界提供了一个更具挑战性和实用性的基准数据集。通过DGraph,研究人员可以更深入地探索异常节点在网络结构、邻居分布和时间动态性等方面的特征,从而推动GAD算法的进一步发展。
当前挑战
DGraph的构建和应用面临多重挑战。首先,金融欺诈检测领域的异常节点通常具有极低的出现频率,导致数据极度不平衡,这对模型的泛化能力提出了严峻考验。其次,DGraph的动态性和大规模特性使得传统的图算法在计算效率和内存消耗上难以应对,尤其是在处理时间序列数据和背景节点时。此外,数据集中存在大量缺失值,如何有效处理这些缺失值以提升模型性能也是一个重要挑战。最后,背景节点的引入虽然丰富了网络结构信息,但也增加了模型设计的复杂性,如何在不损失背景节点信息的前提下提升异常检测的准确性,是未来研究的关键方向之一。
常用场景
经典使用场景
DGraph数据集在金融领域的图异常检测(GAD)研究中具有广泛的应用。其大规模动态图结构,包含超过300万节点和400万动态边,为研究者提供了一个真实世界的金融社交网络环境。通过分析节点之间的紧急联系人关系,DGraph能够有效捕捉欺诈者的异常行为模式,尤其是在金融欺诈检测中表现出色。该数据集不仅支持传统的图神经网络(GNN)方法,还为动态图模型提供了丰富的实验场景。
解决学术问题
DGraph解决了当前图异常检测研究中数据集稀缺和规模不足的问题。现有的GAD数据集通常规模较小,且缺乏动态信息,难以反映真实世界的复杂场景。DGraph通过提供大规模动态图数据,填补了这一空白。其包含的100万标注节点和200万背景节点,使得研究者能够更全面地探索异常节点的结构特征、邻居分布和时间动态。此外,DGraph还为处理缺失值和背景节点提供了新的研究挑战,推动了GAD方法的进一步发展。
衍生相关工作
DGraph的发布推动了图异常检测领域的多项经典工作。基于DGraph,研究者提出了多种改进的GNN模型,如TGAT和RGCN,这些模型能够更好地处理动态图和背景节点。此外,DGraph还激发了关于缺失值处理的研究,提出了多种填补缺失值的策略,如Trick B和IterativeImputer。这些工作不仅提升了GAD方法的性能,还为其他领域的图数据分析提供了新的思路。DGraph的在线排行榜和深度学习竞赛也吸引了大量研究者参与,进一步推动了该领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录