flwrlabs/fed-fraud-paysim-banks

Name: flwrlabs/fed-fraud-paysim-banks
Creator: flwrlabs
Published: 2026-05-05 12:03:52
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/flwrlabs/fed-fraud-paysim-banks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自Hugging Face上的`purulalwani/Synthetic-Financial-Datasets-For-Fraud-Detection`，是一个PaySim风格的合成移动货币欺诈检测数据集。此衍生版本通过将发起账户分配给五个银行之一，并确保每个账户仅属于一个银行分区，创建了一个联邦化的、按银行分区的欺诈检测数据集。每个样本代表一笔合成金融交易，保留了原始的PaySim风格字段，并新增了`BankID`列以标识联邦客户端/银行分配。数据集适用于联邦学习、非独立同分布数据分区、金融欺诈检测和二元分类实验。`isFraud`列是主要标签，其中`1`表示欺诈交易，`0`表示非欺诈交易。

This dataset is derived from the `purulalwani/Synthetic-Financial-Datasets-For-Fraud-Detection` repository on Hugging Face, and it is a PaySim-style synthetic mobile money fraud detection dataset. This derived version constructs a federated, bank-partitioned fraud detection dataset by assigning originating accounts to one of five banks and ensuring that each account belongs to exactly one bank partition. Each sample represents a synthetic financial transaction, retaining the original PaySim-style fields, with an additional `BankID` column to identify the federated client or bank assignment. This dataset is applicable to experiments in federated learning, non-IID data partitioning, financial fraud detection, and binary classification. The `isFraud` column is the primary label, where `1` indicates a fraudulent transaction and `0` indicates a non-fraudulent transaction.

提供机构：

flwrlabs

搜集汇总

数据集介绍

构建方式

该数据集源自PaySim风格的合成移动支付欺诈检测数据，经过联邦学习场景的适配改造而成。构建过程中，首先利用原始数据中的发起账户标识（nameOrig）聚合账户级统计信息，进而将每个发起账户唯一分配至五家银行之一，确保同一账户的所有交易始终归属于同一联邦客户端。账户被划分为欺诈账户、活跃非欺诈账户与轻量非欺诈账户三个层级，随后依据预设的非独立同分布配额策略向各银行分配账户，使五家银行在总体交易量、欺诈样本比例及活跃账户分布上呈现差异性。最后，针对每家银行，采用类别感知的分层抽样方法，将约10%的欺诈与非欺诈交易划分至测试集，其余归入训练集。

特点

该数据集的核心特点在于其天然具备联邦学习所需的非独立同分布属性。通过精心设计的账户分配算法，五家银行在各维度上呈现出差异化的数据分布：银行0至银行4的目标行占比从24%递减至17%，欺诈行占比则从17%递增至23%，活跃非欺诈行占比在19%至21%之间波动，模拟了真实世界中不同金融机构在规模与风险特征上的异质性。数据集保留了原始PaySim数据中的全部关键字段，包括交易步骤、类型、金额、账户余额变化及欺诈标签，并新增BankID字段用以标识联邦客户端，支持集中式与分布式训练场景的无缝切换。

使用方法

使用者可通过Hugging Face的datasets库加载该数据集，获取全局训练集与测试集。在联邦学习实验中，推荐利用BankID字段作为客户端分区标识符，结合flwr_datasets库中的NaturalIdPartitioner实现自然分区。示例代码中，通过filter操作可提取特定银行的数据子集，亦可借助FederatedDataset直接加载分区数据。数据集适用于二元分类任务，主要标签为isFraud，模型可基于交易特征进行欺诈检测训练。使用者应注意该数据集为合成数据，不应用于实际金融决策，仅适合作为联邦学习与非独立同分布场景下的基准实验资源。

背景与挑战

背景概述

在金融欺诈检测领域，由于真实交易数据涉及高度敏感的用户隐私与商业机密，研究者难以获取大规模、可公开共享的标注数据集。为应对这一困境，PaySim模拟器基于真实移动金融交易统计特征生成合成数据，为欺诈检测研究提供了重要基础。2024年，Flower Labs团队在原始PaySim数据基础上构建了联邦欺诈检测数据集fed-fraud-paysim-banks，该数据集将交易按发起账户分配至五个虚拟银行，形成非独立同分布（non-IID）的联邦学习场景。数据集包含超过630万条训练样本与63万条测试样本，涵盖交易步骤、类型、金额、账户余额变化及欺诈标签等关键字段。该数据集的核心研究问题在于模拟多个银行在保护本地数据隐私的前提下协同训练欺诈检测模型，其对联邦学习与金融安全交叉领域产生了显著影响，为评估非IID数据分布下的模型性能与通信效率提供了标准化基准。

当前挑战

该数据集所解决的领域问题核心在于金融欺诈检测中的隐私保护与数据孤岛挑战。传统集中式机器学习需将各方数据汇总至中央服务器，但银行等金融机构受限于法规与商业机密，无法共享客户交易记录。联邦学习框架下，各银行仅交换模型参数而无需暴露原始数据，然而非IID数据分布（如各银行交易量、欺诈率差异显著）极易导致全局模型收敛缓慢甚至性能退化。在数据集构建过程中，研究者面临两大挑战：其一，需将原始连续交易序列合理划分为五个银行分区，既要保证同一账户的交易归属同一银行，又要通过硬配额分配实现差异化的行数占比与欺诈率，以真实反映不同规模银行的数据异质性；其二，需在保持类别分布的前提下进行分层抽样划分训练集与测试集，确保各银行子集内欺诈样本比例合理，避免因数据稀疏导致模型评估偏差。此外，合成数据本身无法完全复现真实交易模式的时序依赖性与复杂欺诈手段，这要求后续模型设计需考虑域适应与鲁棒性增强策略。

常用场景

经典使用场景

fed-fraud-paysim-banks数据集作为金融欺诈检测与联邦学习交叉领域的标杆性资源，其经典使用场景集中于模拟非独立同分布（non-IID）数据分布下的分布式欺诈识别任务。通过将交易账户按银行标识（BankID）划分为五个客户端，研究者得以构建具有差异化规模、欺诈率及活跃账户比例的分区数据，从而真实再现金融机构间数据异构的典型情境。该数据集尤其适合评估联邦平均算法（FedAvg）等聚合策略在弱监督、类别不平衡及隐私约束条件下的鲁棒性，是验证联邦学习系统在反欺诈任务中协同效能的理想测试平台。

实际应用

在产业界真实需求驱动下，该数据集为金融机构构建跨部门协作的反欺诈基础设施提供了关键验证工具。银行可利用其模拟分支结构间共享欺诈情报而无需暴露原始客户交易记录的联邦学习管道，例如在保持各分行本地数据不迁出的前提下联合训练信用卡盗刷检测模型。监管科技（RegTech）公司亦能通过该数据集测试多方数据汇算场景下的合规性技术方案，确保模型在满足GDPR或《个人信息保护法》等法规要求时仍维持较高的欺诈召回率。此外，移动支付服务商可基于其非真实账户标识设计轻量级边缘端推理模型，实现毫秒级交易风险评估。

衍生相关工作

该数据集催生了一系列聚焦联邦金融反欺诈的前沿探索，包括面向动态数据流的增量式联邦学习算法设计、融合生成对抗网络（GAN）的欺诈样本增广策略，以及基于注意力机制的跨银行欺诈模式迁移学习框架。其中代表性工作如通过联邦自编码器捕获交易序列异常特征的架构，以及利用差分隐私与安全聚合技术构建的隐私保护联邦异常检测系统。这些衍生研究不仅深化了对联邦场景下数据异质性与模型性能之间权衡关系的理论认知，更推动了从合成数据到真实银行系统的分层迁移验证方法论发展，为后续探索联邦学习与可解释人工智能在金融风控中的深度融合铺就了道路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集