Online-Payments-Fraud-Detection Dataset

github2025-01-26 更新2025-02-24 收录

下载链接：

https://github.com/project-CY033/Online-Payments-Fraud-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

在线支付欺诈检测数据集，包含在线支付交易信息，用于训练机器学习模型以区分欺诈和非欺诈支付。

The Online Payment Fraud Detection Dataset contains transaction information of online payments, and is designed for training machine learning models to distinguish between fraudulent and non-fraudulent payments.

创建时间：

2025-01-26

原始信息汇总

Online-Payments-Fraud-Detection 数据集概述

数据集基本信息

数据集名称: Online-Payments-Fraud-Detection
下载地址: https://www.kaggle.com/ealaxi/paysim1/download
文件格式: CSV

数据内容

数据字段:
- step: 交易步骤
- type: 交易类型
- amount: 交易金额
- nameOrig: 交易发起方名称
- oldbalanceOrg: 交易发起方旧余额
- newbalanceOrig: 交易发起方新余额
- nameDest: 交易接收方名称
- oldbalanceDest: 交易接收方旧余额
- newbalanceDest: 交易接收方新余额
- isFraud: 是否为欺诈交易（0或1）
- isFlaggedFraud: 是否被标记为欺诈交易（0或1）
交易类型分布:
- CASH_OUT: 2237500
- PAYMENT: 2151495
- CASH_IN: 1399284
- TRANSFER: 532909
- DEBIT: 41432

数据质量

缺失值检查: 无缺失值
欺诈交易相关性:
- amount: 0.076688
- isFlaggedFraud: 0.044109
- step: 0.031578
- oldbalanceOrg: 0.010154
- newbalanceDest: 0.000535
- oldbalanceDest: -0.005885
- newbalanceOrig: -0.008148

数据预处理

字段映射:
- type:
  - CASH_OUT → 1
  - PAYMENT → 2
  - CASH_IN → 3
  - TRANSFER → 4
  - DEBIT → 5
- isFraud:
  - 0 → "No Fraud"
  - 1 → "Fraud"

模型训练与评估

模型类型: 决策树分类器
测试集比例: 10%
模型准确率: 99.97%
预测示例:
- 输入: [4, 9000.60, 9000.60, 0.0]
- 输出: "Fraud"

搜集汇总

数据集介绍

构建方式

Online-Payments-Fraud-Detection数据集的构建是通过收集在线支付交易记录，并标注每一笔交易是否为欺诈行为来实现的。数据集涵盖了交易的基本信息，如交易类型、金额、交易账户的余额变化等，并以此为基础，构建了一个包含多种交易类型的综合数据集。

特点

该数据集的主要特点在于其详尽的交易信息，以及明确的欺诈标注。它包含了大量的交易记录，涵盖了支付、转账、提现等多种交易类型，使得数据集在多样性和规模上均具有较高价值。此外，数据集无缺失值，确保了数据的质量和完整性。

使用方法

使用该数据集时，用户首先需要下载并加载CSV文件至数据分析环境。随后，可以利用Pandas等工具对数据进行探索性分析，了解数据的基本分布和特征。针对模型训练，需将数据集划分为特征和标签，并进一步划分为训练集和测试集。之后，可以选择适当的机器学习模型进行训练，并对模型进行评估和优化。

背景与挑战

背景概述

Online-Payments-Fraud-Detection数据集是在机器学习领域用于训练在线支付欺诈检测模型的专用数据集。该数据集的创建旨在应对在线支付过程中欺诈行为的识别问题，其核心研究问题是如何准确地区分欺诈与非欺诈交易。自发布以来，该数据集已被广泛应用于在线支付安全领域，对于提升支付系统的安全性和防范金融欺诈行为起到了重要作用。该数据集由Kaggle平台提供，具体创建时间和主要研究人员信息不详，但从其使用和引用情况来看，它对相关领域的研究和实践具有显著的影响力。

当前挑战

该数据集在研究领域面临的挑战主要包括：首先，数据集的标注质量直接关系到模型的训练效果，而欺诈行为的复杂性使得标注过程充满挑战；其次，数据集的多样性不足可能会影响模型的泛化能力，导致在实际应用中难以应对多样化的欺诈手段；最后，构建一个高效且准确的在线支付欺诈检测模型需要解决如何处理大量数据、如何提取有效特征以及如何平衡模型复杂度和运行效率等问题。

常用场景

经典使用场景

在机器学习领域，Online-Payments-Fraud-Detection数据集被广泛应用于训练分类模型，以识别在线支付中的欺诈交易。该数据集包含多个字段，如交易类型、金额、账户余额等，这些信息有助于模型理解哪些交易行为可能预示着欺诈。

衍生相关工作

基于该数据集，衍生出了大量相关工作，包括但不限于改进的机器学习模型、特征选择方法以及模型评估策略的研究。这些相关工作进一步扩展了该数据集的应用范围，并推动了相关领域的学术研究和技术进步。

数据集最近研究