Credit Card Fraud Data

github2024-03-13 更新2024-05-31 收录

下载链接：

https://github.com/radadiyamohit81/Fraud-Detection-on-Credit-Card-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2013年9月欧洲信用卡持有者的交易记录。在两天的交易中，有492笔欺诈交易，占总交易284,807笔的0.172%。数据集高度不平衡，仅包含数值输入变量，这些变量是PCA转换的结果。唯一未经过PCA转换的特征是Time和Amount。Time表示每笔交易与数据集中第一笔交易之间的秒数差，Amount是交易金额，Class是响应变量，欺诈时为1，否则为0。

This dataset comprises transaction records of European credit card holders from September 2013. Over the span of two days, there were 492 fraudulent transactions, accounting for 0.172% of the total 284,807 transactions. The dataset is highly imbalanced and consists solely of numerical input variables, which are the result of PCA (Principal Component Analysis) transformation. The only features not subjected to PCA transformation are Time and Amount. Time denotes the difference in seconds between each transaction and the first transaction in the dataset, Amount represents the transaction amount, and Class is the response variable, where 1 indicates fraud and 0 otherwise.

创建时间：

2020-08-03

原始信息汇总

数据集概述

数据集名称

Credit Card Fraud Detection

数据集来源

Credit Card Fraud Data on Kaggle

数据集内容

时间范围：2013年9月
交易次数：284,807次
欺诈交易次数：492次
数据不平衡比例：欺诈交易占0.172%

数据集特征

输入变量：仅包含数值型输入变量，由PCA转换得到。
特征描述：
- V1至V28：通过PCA获得的主成分。
- Time：每笔交易与数据集中第一笔交易之间的秒数。
- Amount：交易金额，可用于依赖示例的成本敏感学习。
- Class：响应变量，欺诈时为1，否则为0。

数据集使用建议

评估指标：推荐使用Precision-Recall曲线下面积（AUPRC）来衡量准确性，因为混淆矩阵准确性不适用于不平衡分类。

搜集汇总

数据集介绍

构建方式

Credit Card Fraud Data数据集构建于2013年9月，记录了欧洲持卡人在两天内的信用卡交易数据。该数据集包含284,807笔交易，其中492笔为欺诈交易，占比仅为0.172%。为了确保数据的隐私性，原始特征通过主成分分析（PCA）进行了转换，生成了28个主成分特征（V1至V28），仅保留了未经PCA处理的‘Time’和‘Amount’两个特征。‘Time’表示每笔交易与数据集中第一笔交易之间的时间间隔（秒），‘Amount’则为交易金额。目标变量‘Class’标记了交易是否为欺诈行为（1表示欺诈，0表示正常）。

使用方法

使用Credit Card Fraud Data数据集时，首先将数据随机划分为训练集、验证集和测试集。随后进行基本的数据探索分析（EDA）和特征工程。在模型训练阶段，可尝试对训练集进行重采样以缓解类别不平衡问题，并在验证集上进行预测和评估。通过比较不同模型的性能，选择最优模型并优化其阈值。最终，使用测试集进行预测并报告结果。该数据集适用于研究不平衡分类技术，如重采样、聚类预测以及精确率-召回率曲线的应用。

背景与挑战

背景概述

信用卡欺诈检测数据集（Credit Card Fraud Data）由欧洲持卡人在2013年9月的两天内进行的信用卡交易数据构成，包含284,807笔交易，其中仅有492笔为欺诈行为，占比仅为0.172%。该数据集由Kaggle平台发布，旨在解决高度不平衡数据的分类问题。由于数据涉及隐私保护，原始特征经过主成分分析（PCA）处理，仅保留了时间、金额和类别标签等关键信息。该数据集的出现为金融领域的欺诈检测研究提供了重要支持，推动了不平衡数据处理技术的进步，尤其是在精确率-召回率曲线（PR曲线）等评估指标的应用上。

当前挑战

信用卡欺诈检测数据集面临的主要挑战在于其高度不平衡的类别分布。欺诈行为在总交易中占比极低，导致传统分类模型和评估指标（如准确率）难以有效识别欺诈行为。为解决这一问题，研究者需采用重采样、聚类等技术，并结合PR曲线等更适合不平衡数据的评估方法。此外，由于原始特征经过PCA处理，数据解释性较差，进一步增加了模型构建和特征工程的难度。如何在保证隐私的前提下提升数据的可解释性，同时开发出高效的不平衡数据分类算法，是该数据集研究中的核心挑战。

常用场景

经典使用场景

在金融科技领域，信用卡欺诈检测是一个关键问题。Credit Card Fraud Data数据集通过提供大量真实的信用卡交易数据，为研究人员和开发者提供了一个理想的实验平台。该数据集常用于训练和评估各种机器学习模型，特别是在处理类别不平衡问题时，展示了其在欺诈检测中的有效性。

解决学术问题

该数据集解决了在类别不平衡数据集中进行有效分类的学术难题。通过提供高度不平衡的欺诈与非欺诈交易数据，研究人员可以探索和验证各种处理不平衡数据的技术，如重采样、聚类分析以及使用精确率-召回率曲线（PR曲线）进行模型评估。这些方法显著提高了模型在少数类（欺诈交易）上的检测能力。

实际应用

在实际应用中，Credit Card Fraud Data数据集被广泛用于金融机构和支付平台的欺诈检测系统中。通过训练和优化机器学习模型，这些系统能够实时监控交易数据，快速识别潜在的欺诈行为，从而减少经济损失并提升用户信任。该数据集的应用不仅提高了欺诈检测的准确性，还推动了相关技术的商业化进程。

数据集最近研究