信用卡欺诈检测数据集

github2024-09-13 更新2024-10-01 收录

下载链接：

https://github.com/rhsbd/Credit-Card-Fraud-Detection-on-Imbalanced-Data-Using-Machine-Learning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含信用卡交易记录，具有高度不平衡的观察结果，其中欺诈交易是总交易中的一小部分。特征包括通过PCA获得的主成分V1-V28、交易金额、从第一次交易开始的时间以及欺诈状态（0表示非欺诈，1表示欺诈）。

This dataset contains credit card transaction records with highly imbalanced observations, where fraudulent transactions only account for a small fraction of all transactions. The included features are principal components V1-V28 derived via PCA, transaction amount, the time elapsed since the first transaction, and the fraud status (0 denotes non-fraudulent transactions while 1 denotes fraudulent transactions).

创建时间：

2024-09-13

原始信息汇总

数据集概述

数据集简介

该数据集包含信用卡交易记录，具有高度不平衡的观测值，其中欺诈交易仅占一小部分。

特征说明

V1-V28: 通过PCA获得的主成分。
Amount: 交易金额。
Time: 自第一笔交易以来的时间。
Class: 欺诈状态（0表示非欺诈，1表示欺诈）。

数据探索与分析

绘制特征分布图。
可视化Class变量的不平衡性。
调查特征之间的相关性。

处理不平衡数据

重采样技术:
- 过采样: 使用合成少数类过采样技术（SMOTE）。
- 欠采样: 随机欠采样。
评估指标:
- 使用精度、召回率、F1分数和ROC-AUC进行评估。

模型训练与评估

应用并评估多个机器学习模型：
- 逻辑回归
- 决策树
- 随机森林
在原始数据集和重采样数据集上训练模型。
使用混淆矩阵评估模型性能。
基于评估指标比较模型结果。

模型保存

使用Python的joblib库保存训练好的模型，以便未来使用。

搜集汇总

数据集介绍

构建方式

在构建信用卡欺诈检测数据集时，研究者们采用了主成分分析（PCA）技术对原始数据进行降维处理，从而生成了28个主成分特征（V1-V28）。此外，数据集还包含了交易金额（Amount）和从首次交易开始的时间间隔（Time）。为了确保数据的真实性和隐私保护，原始特征已被匿名化处理。数据集的标签（Class）用于区分正常交易（0）和欺诈交易（1），其中欺诈交易的比例极低，呈现出显著的不平衡性。

特点

该数据集的主要特点在于其高度不平衡的类别分布，欺诈交易仅占极小部分，这为模型训练带来了挑战。此外，数据集通过PCA处理后的特征具有高度的匿名性和降维效果，有效保护了用户隐私。数据集还包含了交易金额和时间信息，这些特征在欺诈检测中具有重要意义。通过这些特征，研究者能够深入分析交易行为的模式和异常，从而提升欺诈检测的准确性。

使用方法

使用该数据集进行信用卡欺诈检测时，首先需要加载数据并进行探索性数据分析（EDA），以了解特征分布和类别不平衡情况。随后，可以采用重采样技术如SMOTE和随机欠采样来平衡数据集。在模型训练阶段，可以选择多种机器学习模型如逻辑回归、决策树和随机森林进行实验，并通过混淆矩阵、精确率、召回率、F1分数和ROC-AUC等指标评估模型性能。最后，使用Python的joblib库保存训练好的模型，以便于后续的部署和预测。

背景与挑战

背景概述

信用卡欺诈检测数据集是一个专注于金融系统中机器学习应用的关键领域。该数据集由主要研究人员或机构创建，旨在解决信用卡交易中的欺诈检测问题。由于欺诈交易在实际数据中极为罕见，数据集呈现出高度不平衡的特性，这为预测建模带来了显著挑战。该数据集的核心研究问题是如何从高度不平衡的数据中有效检测欺诈交易，并处理数据不平衡问题。这一研究对金融系统的安全性和效率具有重要影响，推动了机器学习技术在实际应用中的发展。

当前挑战

信用卡欺诈检测数据集面临的主要挑战包括数据的高度不平衡性，这使得传统的评估指标如准确率不再适用。为应对这一挑战，研究者采用了重采样技术，如合成少数类过采样技术（SMOTE）和随机欠采样，以及引入精确率、召回率、F1分数和ROC-AUC等评估指标。此外，模型训练过程中需要平衡数据以确保模型能够有效学习少数类（欺诈交易）的特征。这些挑战不仅涉及数据处理和模型选择，还要求研究者深入理解特征间的相互关系，以提升模型的整体性能。

常用场景

经典使用场景

在金融科技领域，信用卡欺诈检测数据集的经典应用场景主要集中在通过机器学习模型识别和预防信用卡交易中的欺诈行为。由于欺诈交易在数据集中占比较小，数据集呈现出高度不平衡的特性。通过应用如SMOTE和随机欠采样等技术，可以有效处理这种不平衡，从而提升模型的检测准确性。模型如逻辑回归、决策树和随机森林被广泛用于训练和评估，以识别潜在的欺诈交易。

衍生相关工作

基于信用卡欺诈检测数据集，衍生了许多相关的经典工作，包括但不限于：1) 研究如何通过特征工程和选择提升模型性能；2) 探索不同采样技术对模型准确性的影响；3) 开发新的评估指标以更好地衡量模型在不平衡数据上的表现。这些工作不仅丰富了欺诈检测领域的理论基础，还为实际应用提供了技术支持和优化策略。

数据集最近研究