Credit Card Fraud Detection Dataset

github2023-03-09 更新2024-05-31 收录

下载链接：

https://github.com/p1halani/Credit-Card-Fraud-Detection-on-Highly-Imbalanced-Dataset

下载链接

链接失效反馈

资源简介：

该数据集包含2013年9月欧洲信用卡持卡人的交易记录。数据集在两天内发生了284,807笔交易，其中492笔为欺诈交易。数据集高度不平衡，欺诈交易（正类）占所有交易的0.172%。数据集仅包含数值输入变量，这些变量是PCA转换的结果。由于保密问题，无法提供原始特征和更多背景信息。特征V1至V28是通过PCA获得的主成分，未经过PCA转换的特征是Time和Amount。Time特征包含每笔交易与数据集中第一笔交易之间的秒数差，Amount特征是交易金额，可用于基于示例的成本敏感学习。Class特征是响应变量，欺诈时取值1，否则取值0。

This dataset comprises transaction records of European credit card holders from September 2013. Over the span of two days, the dataset recorded 284,807 transactions, out of which 492 were fraudulent. The dataset is highly imbalanced, with fraudulent transactions (positive class) constituting 0.172% of all transactions. The dataset exclusively contains numerical input variables, which are the result of PCA (Principal Component Analysis) transformation. Due to confidentiality issues, the original features and additional background information cannot be provided. Features V1 through V28 are the principal components obtained through PCA, while the features not subjected to PCA transformation are Time and Amount. The Time feature represents the difference in seconds between each transaction and the first transaction in the dataset, and the Amount feature denotes the transaction amount, which can be utilized for cost-sensitive learning based on examples. The Class feature is the response variable, taking the value 1 in case of fraud and 0 otherwise.

创建时间：

2020-04-14

原始信息汇总

数据集概述

数据集名称

Credit Card Fraud Detection

数据集描述

该数据集包含2013年9月欧洲信用卡用户的交易记录。数据集涵盖了两天的交易，其中492笔为欺诈交易，总交易次数为284,807次。数据集极度不平衡，欺诈交易（正类）占所有交易的0.172%。

数据集特征

输入变量：数据集仅包含数值型输入变量，这些变量是PCA转换的结果。由于保密问题，原始特征和更多背景信息未提供。
特征说明：
- V1至V28：通过PCA获得的主成分。
- Time：每笔交易与数据集中第一笔交易之间经过的秒数。
- Amount：交易金额，可用于依赖示例的成本敏感学习。
- Class：响应变量，欺诈时为1，否则为0。

数据字典

列位置	属性名称	定义	数据类型	示例	空值比例
1	Time	时间：以秒为单位的时间格式	定量	0,1,2	?
2	V1-V28	可能是通过PCA维度降低以保护用户身份和敏感特征的结果（v1-v28）	定量	0.16648011335321, 0.26615071205963	?
3	Amount	交易金额	定量	378.66, 69.99	?
4	Class	欺诈交易为1，否则为0	定量	0, 1, 0	?

数据集来源

该数据集由Worldline和ULB（布鲁塞尔自由大学）的机器学习组合作收集和分析，用于大数据挖掘和欺诈检测研究。

AI搜集汇总

数据集介绍

构建方式

该数据集由欧洲持卡人在2013年9月进行的信用卡交易数据构成，涵盖了为期两天的交易记录，共包含284,807笔交易，其中492笔为欺诈交易。由于涉及用户隐私和敏感信息，原始特征经过主成分分析（PCA）处理，生成了28个主成分特征（V1-V28），仅保留了未经PCA处理的‘Time’和‘Amount’两个特征。‘Time’表示每笔交易与数据集中第一笔交易的时间间隔（以秒为单位），‘Amount’为交易金额，‘Class’为目标变量，标记是否为欺诈交易（1为欺诈，0为正常）。

特点

该数据集的主要特点在于其高度不平衡性，欺诈交易仅占全部交易的0.172%，这对模型的训练和评估提出了挑战。所有特征均为数值型，其中V1-V28是通过PCA降维得到的匿名化特征，有效保护了用户隐私。‘Amount’特征可用于基于交易金额的成本敏感学习，而‘Time’特征则为时间序列分析提供了可能。数据集的简洁性和匿名化处理使其成为研究信用卡欺诈检测的理想选择。

使用方法

该数据集适用于信用卡欺诈检测模型的开发与评估。研究人员可通过机器学习或深度学习算法，利用V1-V28特征和‘Amount’特征构建分类模型，并通过‘Class’标签评估模型性能。由于数据不平衡，建议采用过采样、欠采样或代价敏感学习等技术处理类别不平衡问题。此外，‘Time’特征可用于时间序列分析，探索欺诈行为的时间分布规律。数据集还可用于对比不同算法的性能，推动欺诈检测领域的研究进展。

背景与挑战

背景概述

信用卡欺诈检测数据集（Credit Card Fraud Detection Dataset）由Worldline与布鲁塞尔自由大学（Université Libre de Bruxelles）的机器学习研究组于2013年合作创建，旨在通过大数据挖掘技术识别信用卡交易中的欺诈行为。该数据集记录了2013年9月欧洲持卡人在两天内完成的284,807笔交易，其中包含492笔欺诈交易，欺诈比例仅为0.172%。由于数据敏感性，原始特征经过主成分分析（PCA）处理，仅保留了28个主成分特征（V1-V28），以及未经处理的交易时间（Time）和交易金额（Amount）特征。该数据集为金融领域的欺诈检测研究提供了重要的实验基础，推动了机器学习在金融安全中的应用。

当前挑战

信用卡欺诈检测数据集面临的主要挑战包括数据不平衡问题和特征解释性不足。由于欺诈交易仅占极小比例，模型在训练过程中容易偏向多数类，导致对欺诈行为的检测效果不佳。此外，数据集中的特征经过PCA处理，虽然保护了用户隐私，但也使得特征的解释性显著降低，难以直接关联到具体的交易行为或用户信息。构建过程中，研究人员还需应对数据采集的复杂性和隐私保护问题，如何在确保数据安全的前提下提供足够的信息以支持有效的欺诈检测，成为该领域的重要研究方向。

常用场景

经典使用场景

信用卡欺诈检测数据集（Credit Card Fraud Detection Dataset）广泛应用于金融科技领域，特别是在欺诈检测模型的开发与验证中。该数据集通过提供大量真实的信用卡交易记录，帮助研究人员构建和测试机器学习模型，以识别异常交易行为。由于数据集中欺诈交易的比例极低，研究者常利用该数据集来探索不平衡数据分类问题，并开发高效的异常检测算法。

解决学术问题

该数据集为解决信用卡欺诈检测中的不平衡分类问题提供了重要支持。由于欺诈交易仅占极小比例，传统的分类算法往往难以有效识别欺诈行为。通过该数据集，研究者可以开发并验证基于过采样、欠采样或集成学习的方法，以提升模型在不平衡数据上的性能。此外，该数据集还推动了基于PCA的特征工程研究，为保护用户隐私的同时提取有效特征提供了范例。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究者提出了多种基于深度学习的欺诈检测模型，如LSTM和Autoencoder，以捕捉交易序列中的复杂模式。此外，该数据集还催生了多篇关于不平衡数据处理和特征选择的学术论文，推动了相关领域的技术进步。这些工作不仅提升了欺诈检测的准确性，还为其他领域的异常检测研究提供了重要参考。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集