Financial Fraud Detection

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/GDharan10/Dataset14_FinancialFraudDetection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了一个模拟移动货币交易的合成表示，精心设计以反映真实世界金融活动的复杂性，同时整合了研究目的的欺诈行为。数据源自名为PaySim的模拟器，该模拟器利用非洲某国移动货币服务的聚合真实金融日志数据。数据集包含多种交易类型，如CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER，模拟了30天的交易周期，为评估欺诈检测方法提供了一个全面的环境。

This dataset offers a synthetic representation of simulated mobile money transactions, meticulously designed to reflect the complexity of real-world financial activities while incorporating fraudulent behaviors for research purposes. The data originates from a simulator named PaySim, which utilizes aggregated real financial log data from mobile money services in an African country. The dataset encompasses various transaction types, such as CASH-IN, CASH-OUT, DEBIT, PAYMENT, and TRANSFER, simulating a 30-day transaction cycle, thereby providing a comprehensive environment for evaluating fraud detection methodologies.

创建时间：

2024-04-05

原始信息汇总

Financial Fraud Detection 数据集概述

数据集来源与目的

数据集由PaySim模拟器生成，该模拟器利用非洲某国移动货币服务的实际金融日志数据。
旨在为欺诈检测研究提供一个公开可用的、包含欺诈行为的金融数据集。

数据集内容

包含多种交易类型：CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER。
模拟了30天的交易活动，共744个时间步，每步代表1小时。

数据集结构

step: 时间步，代表现实世界中的1小时。
type: 交易类型。
amount: 交易金额，以当地货币计。
nameOrig: 发起交易的客户。
oldbalanceOrg: 交易前的初始余额。
newbalanceOrig: 交易后的新余额。
nameDest: 交易接收客户。
oldbalanceDest: 接收客户交易前的初始余额（不适用于标识为M的商户）。
newbalanceDest: 接收客户交易后的新余额（不适用于M商户）。
isFraud: 标识由欺诈代理执行的交易。
isFlaggedFraud: 标识超过200,000的非法大额转账。

重要注意事项

欺诈交易已被取消，因此在欺诈分析中应避免使用以下列：oldbalanceOrg, newbalanceOrig, oldbalanceDest, newbalanceDest。
数据集已缩减至原始大小的1/4，以适应Kaggle平台的使用。

搜集汇总

数据集介绍

构建方式

该数据集通过PaySim模拟器构建，模拟了非洲某国移动货币服务的真实金融日志，生成了包含多种交易类型的合成数据。PaySim基于一个月的实际金融日志，通过聚合和模拟技术，生成了包括CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER等交易类型的30天模拟数据。为了适应Kaggle平台的使用需求，数据集规模被缩减至原始数据的四分之一。此外，为了确保隐私安全，所有标记为欺诈的交易均被无效化处理，突出了非余额列在欺诈分析中的重要性。

特点

该数据集涵盖了多种交易类型，模拟了真实世界中的金融活动，并特别融入了欺诈行为，为欺诈检测研究提供了丰富的实验环境。数据集中的每一笔交易都包含了时间步长、交易类型、金额、交易发起者和接收者等信息，并通过`isFraud`和`isFlaggedFraud`两列明确标识了欺诈交易。值得注意的是，欺诈交易的余额信息已被无效化，研究者需依赖其他非余额列进行分析。数据集的结构清晰，时间步长精确到小时，总模拟时长为30天，为研究者提供了全面的时间序列分析基础。

使用方法

该数据集适用于金融欺诈检测领域的研究，研究者可以通过分析交易类型、金额、时间步长等特征，构建和验证欺诈检测模型。由于欺诈交易的余额信息已被无效化，研究者应重点关注非余额列，如交易类型、金额和交易双方信息。数据集中的`isFraud`和`isFlaggedFraud`列可直接用于监督学习中的标签数据，帮助模型识别欺诈行为。此外，数据集的时间序列特性也为时间依赖性分析提供了可能，研究者可探索欺诈行为的时间分布规律。数据集已适配Kaggle平台，便于研究者快速上手并进行实验。

背景与挑战

背景概述

在金融科技领域，欺诈检测一直是保障金融安全的核心问题之一。Financial Fraud Detection数据集由瑞典知识基金会资助的“可扩展资源高效大数据分析系统”项目开发，旨在填补公开金融数据集在欺诈检测研究中的空白。该数据集基于PaySim模拟器生成，模拟了非洲某国移动货币服务的真实交易日志，涵盖了CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER等多种交易类型，模拟时长为30天。通过合成数据，该数据集在保护用户隐私的同时，为研究人员提供了一个高度逼真的实验环境，推动了金融欺诈检测算法的发展。

当前挑战

Financial Fraud Detection数据集在解决金融欺诈检测问题时面临多重挑战。首先，欺诈行为通常具有隐蔽性和多样性，如何在复杂的交易模式中准确识别欺诈行为是一个关键难题。其次，数据集的构建过程中需平衡数据的真实性与隐私保护，确保合成数据既能反映真实交易特征，又不会泄露敏感信息。此外，由于欺诈交易在整体数据中占比较低，数据不平衡问题对模型的训练和评估提出了更高要求。最后，数据集中的欺诈交易已被标记为无效，这要求研究人员在分析时需特别关注非余额相关字段，进一步增加了分析的复杂性。

常用场景

经典使用场景

在金融欺诈检测领域，该数据集被广泛应用于模拟和分析移动货币交易中的欺诈行为。研究者利用该数据集中的多样化交易类型，如CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER，构建和验证欺诈检测模型。通过模拟30天的交易活动，数据集提供了一个接近真实世界的环境，使得研究者能够在保护隐私的前提下，深入探讨欺诈行为的模式和特征。

衍生相关工作

该数据集衍生了一系列经典的研究工作，包括基于机器学习的欺诈检测算法、异常检测模型以及交易行为分析等。许多研究利用该数据集验证了其方法的有效性，并在此基础上提出了改进方案。这些工作不仅丰富了金融欺诈检测的理论体系，还为实际应用提供了有力的技术支持，推动了该领域的持续创新和发展。

数据集最近研究