Credit Card Fraud Detection Dataset

github2024-10-27 更新2024-10-28 收录

下载链接：

https://github.com/Aniket-Sonar/Credit-Card-Fraud-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2013年9月欧洲信用卡持卡人的交易记录。数据集在两天内记录了284,807笔交易，其中492笔为欺诈交易。数据集高度不平衡，欺诈交易占总交易量的0.172%。数据集仅包含数值输入变量，这些变量是PCA转换的结果。由于保密问题，无法提供原始特征和更多背景信息。特征V1, V2, … V28是PCA得到的主成分，未经过PCA转换的特征是Time和Amount。Time特征包含每笔交易与数据集中第一笔交易之间的时间差，Amount特征是交易金额，Class特征是响应变量，欺诈时取值1，否则取值0。

This dataset contains transaction records of European credit card holders in September 2013. A total of 284,807 transactions were recorded over a two-day period, among which 492 are fraudulent transactions. The dataset is highly imbalanced, with fraudulent transactions accounting for only 0.172% of the total transaction volume. The dataset exclusively comprises numerical input variables, with the majority being results of PCA transformation. Due to confidentiality constraints, the original features and additional background information cannot be disclosed. The features V1, V2, …, V28 are principal components derived via PCA, while the two untransformed features are Time and Amount. The Time feature records the time elapsed between each transaction and the first transaction in the dataset, the Amount feature denotes the transaction amount, and the Class feature is the response variable, which takes the value 1 for fraudulent transactions and 0 otherwise.

创建时间：

2024-10-27

原始信息汇总

信用卡欺诈检测数据集

背景

信用卡公司需要识别欺诈性信用卡交易，以确保客户不会为未购买的商品付费。

内容

数据来源: 2013年9月欧洲信用卡持有者的交易记录。
时间范围: 两天内的交易数据。
数据规模: 284,807笔交易，其中492笔为欺诈交易。
类别不平衡: 欺诈交易占总交易的比例为0.172%。

特征

特征类型: 仅包含数值输入变量，这些变量是PCA转换的结果。
特征描述:
- V1, V2, ..., V28: PCA转换后的主成分。
- Time: 每笔交易与数据集中第一笔交易之间的时间差（以秒为单位）。
- Amount: 交易金额。
- Class: 响应变量，1表示欺诈，0表示正常。

建议

评估指标: 由于类别不平衡，建议使用AUPRC（精确率-召回率曲线下面积）来衡量准确性。混淆矩阵的准确性不适用于不平衡分类问题。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于2013年9月欧洲信用卡持有者的交易记录，涵盖了两天内的284,807笔交易，其中包含492笔欺诈交易。为保护数据隐私，原始特征经过主成分分析（PCA）转换，仅保留了转换后的主成分V1至V28。此外，数据集还包含未经过PCA处理的特征，如'Time'和'Amount'，分别表示交易时间与初始交易的时间差和交易金额。'Class'特征作为响应变量，标记了交易是否为欺诈，其中1表示欺诈，0表示正常交易。

特点

该数据集的主要特点在于其高度不平衡性，欺诈交易仅占所有交易的0.172%，这使得传统的准确率评估方法不再适用。因此，推荐使用精确率-召回率曲线下的面积（AUPRC）来衡量模型性能。此外，数据集的特征经过PCA处理，保留了高维数据的主要信息，同时确保了数据的保密性。

使用方法

使用该数据集时，建议采用适用于不平衡分类的机器学习算法，如随机森林、梯度提升树等。由于数据集的不平衡性，评估模型性能时应优先考虑AUPRC而非混淆矩阵的准确率。此外，'Amount'特征可用于依赖于样本的成本敏感学习，而'Time'特征则提供了交易的时间序列信息，有助于捕捉欺诈行为的时序模式。

背景与挑战

背景概述

在现代金融交易中，信用卡欺诈检测已成为保障消费者权益和维护金融系统稳定的关键环节。Credit Card Fraud Detection Dataset由欧洲的信用卡公司在2013年9月创建，旨在通过识别异常交易来防止消费者被错误收费。该数据集包含了在两天内发生的284,807笔交易，其中仅492笔为欺诈交易，占比极低，仅为0.172%。数据集的特征经过主成分分析（PCA）处理，仅保留了未转换的'Time'和'Amount'特征，以及作为响应变量的'Class'特征。这一数据集的创建，为研究不平衡数据分类问题提供了宝贵的资源，特别是在金融欺诈检测领域，其影响力不可忽视。

当前挑战

Credit Card Fraud Detection Dataset面临的主要挑战之一是其极端的不平衡性，欺诈交易仅占全部交易的0.172%，这使得传统的分类准确率评估方法失效。因此，推荐使用精确率-召回率曲线下的面积（AUPRC）来衡量模型性能。此外，由于数据保密性的要求，原始特征和背景信息未能公开，这限制了研究人员对数据深层结构的探索和理解。数据集的构建过程中，如何在不损害数据隐私的前提下，提供足够的信息以支持有效的欺诈检测模型训练，也是一个重要的挑战。

常用场景

经典使用场景

在金融科技领域，信用卡欺诈检测数据集被广泛用于开发和验证欺诈检测算法。该数据集通过提供高度不平衡的分类问题，即欺诈交易仅占极小比例，促使研究者探索和优化不平衡数据集的处理方法。通过分析特征如交易时间、金额以及经过主成分分析（PCA）处理的其他变量，研究者能够构建模型以识别潜在的欺诈行为，从而提高信用卡交易的安全性。

实际应用

在实际应用中，信用卡欺诈检测数据集被金融机构广泛用于开发和部署欺诈检测系统。通过训练和优化模型，金融机构能够实时监控和识别异常交易，从而及时阻止欺诈行为，保护客户资产。此外，该数据集还支持金融机构进行风险评估和策略调整，确保金融交易的安全性和可靠性，提升客户信任和满意度。

衍生相关工作

基于信用卡欺诈检测数据集，研究者们开发了多种欺诈检测模型和算法，推动了金融科技领域的创新。例如，一些研究工作探索了使用深度学习技术来提高欺诈检测的准确性，而另一些则专注于优化不平衡数据集的处理方法。此外，该数据集还激发了对隐私保护和数据安全问题的进一步研究，特别是在处理敏感金融数据时如何确保数据的安全性和合规性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集