Synthetic-Financial-Datasets-For-Fraud-Detection

github2023-10-24 更新2024-05-31 收录

下载链接：

https://github.com/BBQtime/Synthetic-Financial-Datasets-For-Fraud-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由PaySim移动货币模拟器生成，模拟了移动货币交易中的正常操作和欺诈行为，用于欺诈检测方法的评估。数据集基于非洲某国一个月的真实金融日志，由跨国公司提供，目前已在超过14个国家运营。

This dataset is generated by the PaySim mobile money simulator, which simulates both normal operations and fraudulent activities in mobile money transactions, and is used for the evaluation of fraud detection methods. The dataset is based on one month of real financial logs from a country in Africa, provided by a multinational company that currently operates in more than 14 countries.

创建时间：

2018-09-14

原始信息汇总

数据集概述

数据集名称

Synthetic-Financial-Datasets-For-Fraud-Detection

数据集来源

Kaggle
数据由PaySim移动货币模拟器生成

数据集目的

用于欺诈检测研究
解决金融数据集公开可用性不足的问题

数据集内容

基于非洲某国一个月的真实金融日志样本，通过PaySim模拟生成的合成数据集
数据集规模为原始数据的1/4，专为Kaggle创建

数据集特征

step: 时间单位，1步代表1小时，总步数744（模拟30天）
type: 交易类型，包括CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER
amount: 交易金额，以当地货币计
nameOrig: 发起交易的客户
oldbalanceOrg: 交易前的初始余额
newbalanceOrig: 交易后的新余额
nameDest: 交易接收方客户
oldbalanceDest: 接收方交易前的初始余额（不包括以M开头的商户信息）
newbalanceDest: 接收方交易后的新余额（不包括以M开头的商户信息）
isFraud: 模拟中欺诈代理进行的交易
isFlaggedFraud: 业务模型控制大额转账，标记非法尝试（单笔交易超过200,000）

搜集汇总

数据集介绍

构建方式

Synthetic-Financial-Datasets-For-Fraud-Detection数据集是通过PaySim模拟器生成的，该模拟器基于从非洲某国一个月的移动金融服务日志中提取的真实交易样本。原始日志由一家跨国移动金融服务提供商提供，该服务在全球超过14个国家运营。为了适应Kaggle平台的需求，该数据集被缩放到原始数据集的四分之一大小。PaySim通过聚合私有数据集中的数据，生成一个模拟正常交易操作的合成数据集，并注入恶意行为以评估欺诈检测方法的性能。

特点

该数据集包含了模拟的移动货币交易，涵盖了CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER等多种交易类型。每笔交易记录了交易金额、发起客户、接收客户、交易前后的余额等信息。特别地，数据集还标注了欺诈交易（isFraud）和被标记为欺诈的交易（isFlaggedFraud），其中欺诈行为模拟了攻击者通过控制客户账户并转移资金以牟利的场景。数据集的时间步长（step）以小时为单位，模拟了30天的交易活动。

使用方法

该数据集主要用于欺诈检测领域的研究和算法开发。研究人员可以通过分析交易类型、金额、余额变化等特征，构建和评估欺诈检测模型。数据集中的isFraud和isFlaggedFraud字段为监督学习提供了标签，可用于训练分类模型。此外，数据集的时间序列特性也为时间序列分析和异常检测提供了基础。通过该数据集，研究人员可以模拟真实场景中的欺诈行为，并测试不同检测方法的有效性。

背景与挑战

背景概述

Synthetic-Financial-Datasets-For-Fraud-Detection数据集由PaySim移动资金模拟器生成，旨在解决金融欺诈检测领域缺乏公开可用数据的问题。该数据集由Kaggle平台发布，基于非洲某国一个月的真实移动资金交易日志，通过模拟生成合成数据，以保护原始数据的隐私性。PaySim模拟器通过聚合私有数据集中的数据，生成与正常交易行为相似的合成数据，并注入恶意行为以评估欺诈检测方法的性能。该数据集的研究背景源于金融交易数据的敏感性，导致公开数据集稀缺，而该数据集的发布为研究人员提供了一个重要的实验平台，推动了金融欺诈检测领域的研究进展。

当前挑战

Synthetic-Financial-Datasets-For-Fraud-Detection数据集面临的主要挑战包括两个方面。首先，在领域问题方面，尽管该数据集为欺诈检测提供了实验数据，但其合成性质可能导致与真实交易行为的偏差，从而影响模型的泛化能力。其次，在构建过程中，数据生成依赖于有限的真实交易日志，且模拟器可能无法完全捕捉复杂金融欺诈行为的多样性。此外，数据集中的欺诈行为仅针对特定场景（如账户控制与资金转移），可能无法涵盖其他类型的欺诈模式，限制了其在更广泛场景中的应用。这些挑战要求研究人员在使用该数据集时需谨慎评估其局限性，并结合其他数据源以提高模型的鲁棒性。

常用场景

经典使用场景

在金融欺诈检测领域，Synthetic-Financial-Datasets-For-Fraud-Detection数据集被广泛应用于模拟和分析移动货币交易中的欺诈行为。该数据集通过PaySim模拟器生成，能够模拟真实的交易环境，并注入恶意行为，为研究人员提供了一个安全且可控的实验平台。通过该数据集，研究者可以开发和测试各种欺诈检测算法，评估其在不同交易场景下的性能表现。

解决学术问题

该数据集解决了金融欺诈检测研究中缺乏公开可用数据的问题。由于金融交易的隐私性，真实数据难以获取，而该合成数据集通过模拟真实交易环境，提供了丰富的数据样本，使得研究者能够在保护隐私的前提下进行深入分析。这不仅推动了欺诈检测算法的发展，还为金融安全领域的研究提供了重要的数据支持。

衍生相关工作

基于Synthetic-Financial-Datasets-For-Fraud-Detection数据集，许多经典的研究工作得以展开。例如，研究者开发了基于机器学习的欺诈检测模型，利用该数据集进行训练和验证，显著提高了欺诈检测的准确性和效率。此外，该数据集还催生了一系列关于交易行为分析和异常检测的研究，为金融安全领域的技术进步提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集