Financial Fraud Detection
收藏github2024-04-05 更新2024-05-31 收录
下载链接:
https://github.com/GDharan10/Dataset14_FinancialFraudDetection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了一个模拟移动货币交易的合成表示,精心设计以反映真实世界金融活动的复杂性,同时整合了研究目的的欺诈行为。数据源自名为PaySim的模拟器,该模拟器利用非洲某国移动货币服务的聚合真实金融日志数据。数据集包含多种交易类型,如CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER,模拟了30天的交易周期,为评估欺诈检测方法提供了一个全面的环境。
This dataset offers a synthetic representation of simulated mobile money transactions, meticulously designed to reflect the complexity of real-world financial activities while incorporating fraudulent behaviors for research purposes. The data originates from a simulator named PaySim, which utilizes aggregated real financial log data from mobile money services in an African country. The dataset encompasses various transaction types, such as CASH-IN, CASH-OUT, DEBIT, PAYMENT, and TRANSFER, simulating a 30-day transaction cycle, thereby providing a comprehensive environment for evaluating fraud detection methodologies.
创建时间:
2024-04-05
原始信息汇总
Financial Fraud Detection 数据集概述
数据集来源与目的
- 数据集由PaySim模拟器生成,该模拟器利用非洲某国移动货币服务的实际金融日志数据。
- 旨在为欺诈检测研究提供一个公开可用的、包含欺诈行为的金融数据集。
数据集内容
- 包含多种交易类型:CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER。
- 模拟了30天的交易活动,共744个时间步,每步代表1小时。
数据集结构
step: 时间步,代表现实世界中的1小时。type: 交易类型。amount: 交易金额,以当地货币计。nameOrig: 发起交易的客户。oldbalanceOrg: 交易前的初始余额。newbalanceOrig: 交易后的新余额。nameDest: 交易接收客户。oldbalanceDest: 接收客户交易前的初始余额(不适用于标识为M的商户)。newbalanceDest: 接收客户交易后的新余额(不适用于M商户)。isFraud: 标识由欺诈代理执行的交易。isFlaggedFraud: 标识超过200,000的非法大额转账。
重要注意事项
- 欺诈交易已被取消,因此在欺诈分析中应避免使用以下列:
oldbalanceOrg,newbalanceOrig,oldbalanceDest,newbalanceDest。 - 数据集已缩减至原始大小的1/4,以适应Kaggle平台的使用。
搜集汇总
数据集介绍

构建方式
该数据集通过PaySim模拟器构建,模拟了非洲某国移动货币服务的真实金融日志,生成了包含多种交易类型的合成数据。PaySim基于一个月的实际金融日志,通过聚合和模拟技术,生成了包括CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER等交易类型的30天模拟数据。为了适应Kaggle平台的使用需求,数据集规模被缩减至原始数据的四分之一。此外,为了确保隐私安全,所有标记为欺诈的交易均被无效化处理,突出了非余额列在欺诈分析中的重要性。
特点
该数据集涵盖了多种交易类型,模拟了真实世界中的金融活动,并特别融入了欺诈行为,为欺诈检测研究提供了丰富的实验环境。数据集中的每一笔交易都包含了时间步长、交易类型、金额、交易发起者和接收者等信息,并通过`isFraud`和`isFlaggedFraud`两列明确标识了欺诈交易。值得注意的是,欺诈交易的余额信息已被无效化,研究者需依赖其他非余额列进行分析。数据集的结构清晰,时间步长精确到小时,总模拟时长为30天,为研究者提供了全面的时间序列分析基础。
使用方法
该数据集适用于金融欺诈检测领域的研究,研究者可以通过分析交易类型、金额、时间步长等特征,构建和验证欺诈检测模型。由于欺诈交易的余额信息已被无效化,研究者应重点关注非余额列,如交易类型、金额和交易双方信息。数据集中的`isFraud`和`isFlaggedFraud`列可直接用于监督学习中的标签数据,帮助模型识别欺诈行为。此外,数据集的时间序列特性也为时间依赖性分析提供了可能,研究者可探索欺诈行为的时间分布规律。数据集已适配Kaggle平台,便于研究者快速上手并进行实验。
背景与挑战
背景概述
在金融科技领域,欺诈检测一直是保障金融安全的核心问题之一。Financial Fraud Detection数据集由瑞典知识基金会资助的“可扩展资源高效大数据分析系统”项目开发,旨在填补公开金融数据集在欺诈检测研究中的空白。该数据集基于PaySim模拟器生成,模拟了非洲某国移动货币服务的真实交易日志,涵盖了CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER等多种交易类型,模拟时长为30天。通过合成数据,该数据集在保护用户隐私的同时,为研究人员提供了一个高度逼真的实验环境,推动了金融欺诈检测算法的发展。
当前挑战
Financial Fraud Detection数据集在解决金融欺诈检测问题时面临多重挑战。首先,欺诈行为通常具有隐蔽性和多样性,如何在复杂的交易模式中准确识别欺诈行为是一个关键难题。其次,数据集的构建过程中需平衡数据的真实性与隐私保护,确保合成数据既能反映真实交易特征,又不会泄露敏感信息。此外,由于欺诈交易在整体数据中占比较低,数据不平衡问题对模型的训练和评估提出了更高要求。最后,数据集中的欺诈交易已被标记为无效,这要求研究人员在分析时需特别关注非余额相关字段,进一步增加了分析的复杂性。
常用场景
经典使用场景
在金融欺诈检测领域,该数据集被广泛应用于模拟和分析移动货币交易中的欺诈行为。研究者利用该数据集中的多样化交易类型,如CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER,构建和验证欺诈检测模型。通过模拟30天的交易活动,数据集提供了一个接近真实世界的环境,使得研究者能够在保护隐私的前提下,深入探讨欺诈行为的模式和特征。
衍生相关工作
该数据集衍生了一系列经典的研究工作,包括基于机器学习的欺诈检测算法、异常检测模型以及交易行为分析等。许多研究利用该数据集验证了其方法的有效性,并在此基础上提出了改进方案。这些工作不仅丰富了金融欺诈检测的理论体系,还为实际应用提供了有力的技术支持,推动了该领域的持续创新和发展。
数据集最近研究
最新研究方向
在金融欺诈检测领域,随着移动支付和数字金融的快速发展,欺诈行为的复杂性和隐蔽性日益增加。Financial Fraud Detection数据集通过模拟真实世界的移动货币交易,为研究者提供了一个独特的平台,以探索和验证先进的欺诈检测算法。近年来,研究者们利用该数据集,结合机器学习和深度学习技术,开发了多种高效的欺诈检测模型。这些模型不仅能够识别传统的欺诈模式,还能通过分析交易的时间序列特征和用户行为模式,捕捉到更为复杂的欺诈行为。此外,该数据集还被广泛应用于研究欺诈行为的动态演变过程,以及在不同金融环境下的适应性。通过这一系列研究,不仅提升了金融系统的安全性,也为相关政策的制定提供了科学依据。
以上内容由遇见数据集搜集并总结生成



