Credit-Card-Fraud-Detection-Kaggle-Dataset

github2020-08-20 更新2024-05-31 收录

下载链接：

https://github.com/Nithilaa/Credit-Card-Fraud-Detection-Kaggle-Dataset-

下载链接

链接失效反馈

资源简介：

该数据集包含2013年9月欧洲信用卡持卡人的交易记录。数据集展示了两天内的交易情况，其中492笔为欺诈交易，总交易次数为284,807次。数据集极度不平衡，欺诈交易（正类）占所有交易的0.172%。数据集仅包含数值输入变量，这些变量是PCA转换的结果。由于保密问题，无法提供原始特征和更多数据背景信息。特征V1至V28是通过PCA获得的主成分，未经过PCA转换的特征有Time和Amount。Time特征包含每笔交易与数据集中第一笔交易之间的秒数差，Amount特征是交易金额，可用于示例依赖的成本敏感学习。Class特征是响应变量，欺诈时值为1，否则为0。

This dataset comprises transaction records of European credit card holders from September 2013. It details transactions over a two-day period, including 492 fraudulent transactions out of a total of 284,807 transactions. The dataset is highly imbalanced, with fraudulent transactions (positive class) accounting for 0.172% of all transactions. The dataset contains only numerical input variables, which are the result of PCA (Principal Component Analysis) transformation. Due to confidentiality issues, the original features and more background information cannot be provided. Features V1 to V28 are the principal components obtained through PCA, while the features not transformed by PCA are Time and Amount. The Time feature represents the number of seconds elapsed between each transaction and the first transaction in the dataset. The Amount feature denotes the transaction amount, which can be used for cost-sensitive learning depending on the example. The Class feature is the response variable, with a value of 1 indicating fraud and 0 otherwise.

创建时间：

2020-07-16

原始信息汇总

数据集概述

数据集名称

Credit-Card-Fraud-Detection-Kaggle-Dataset

数据集内容

该数据集包含2013年9月欧洲信用卡用户的交易记录。数据集涵盖了两天的交易情况，其中欺诈交易492笔，总交易次数为284,807笔。

数据集特征

数据不平衡情况：欺诈交易占总交易的比例为0.172%。
数据特征：数据集仅包含数值型输入变量，这些变量是经过PCA转换的结果。特征V1至V28是通过PCA获得的主成分。未经过PCA转换的特征包括Time和Amount。
- Time：表示每笔交易与数据集中第一笔交易之间经过的秒数。
- Amount：表示交易金额，可用于依赖于实例的成本敏感学习。
响应变量：Class，当交易为欺诈时值为1，否则为0。

数据集限制

由于保密问题，未提供原始特征和更多背景信息。

AI搜集汇总

数据集介绍

构建方式

该数据集基于2013年9月欧洲持卡人的信用卡交易记录构建，涵盖了为期两天的交易数据，总计包含284,807笔交易，其中492笔为欺诈交易。由于数据保密性要求，原始特征信息无法公开，所有输入变量均通过主成分分析（PCA）进行转换，生成了28个主成分特征（V1至V28）。此外，数据集保留了未经PCA处理的‘Time’和‘Amount’两个特征，分别表示每笔交易与首笔交易的时间间隔（以秒为单位）以及交易金额。目标变量‘Class’用于标识交易是否为欺诈行为，取值为1表示欺诈，0表示正常交易。

特点

该数据集的主要特点在于其高度不平衡性，欺诈交易仅占全部交易的0.172%，这为欺诈检测模型的训练带来了挑战。数据集中的所有特征均为数值型，且大部分特征通过PCA降维处理，确保了数据的匿名性和安全性。‘Time’和‘Amount’两个特征保留了原始信息，为模型提供了额外的上下文信息。目标变量‘Class’的二元分类特性使其适用于监督学习任务，尤其是针对欺诈检测的场景。

使用方法

该数据集适用于信用卡欺诈检测领域的研究与模型开发。用户可以通过加载数据集，利用‘V1’至‘V28’等PCA转换特征以及‘Time’和‘Amount’特征，构建分类模型以识别欺诈交易。由于数据的高度不平衡性，建议采用过采样、欠采样或代价敏感学习等技术优化模型性能。目标变量‘Class’可直接用于监督学习的标签数据，用户可通过交叉验证、模型评估指标（如精确率、召回率、F1分数等）对模型进行性能评估。此外，该数据集还可用于探索时间序列分析或金额相关的欺诈模式研究。

背景与挑战

背景概述

Credit-Card-Fraud-Detection-Kaggle-Dataset 数据集由欧洲持卡人在2013年9月进行的信用卡交易数据构成，涵盖了为期两天的284,807笔交易，其中包含492笔欺诈交易。该数据集由主要研究人员或机构通过主成分分析（PCA）技术对原始数据进行处理，生成了28个主成分特征（V1至V28），并保留了未经PCA处理的‘Time’和‘Amount’两个特征。‘Time’表示每笔交易与数据集中第一笔交易之间的时间间隔（以秒为单位），而‘Amount’则记录了交易金额。该数据集的核心研究问题在于如何从高度不平衡的数据中有效检测信用卡欺诈行为，其不平衡比例仅为0.172%。这一数据集为金融欺诈检测领域的研究提供了重要的实验基础，推动了机器学习模型在不平衡数据分类问题中的应用与发展。

当前挑战

Credit-Card-Fraud-Detection-Kaggle-Dataset 数据集面临的主要挑战包括两个方面。首先，数据的高度不平衡性使得模型训练过程中难以准确捕捉欺诈行为的特征，可能导致模型对少数类（欺诈交易）的识别能力不足。其次，由于数据隐私保护的限制，原始特征信息被PCA处理后无法提供更多背景信息，这在一定程度上限制了研究人员对数据的深入分析和特征工程的可能性。此外，时间特征（‘Time’）和金额特征（‘Amount’）的保留虽然为模型提供了额外的信息维度，但也增加了模型在处理时间序列和金额分布时的复杂性。这些挑战共同构成了该数据集在金融欺诈检测领域应用中的核心难点。

常用场景

经典使用场景

在金融科技领域，信用卡欺诈检测是一个至关重要的研究方向。Credit-Card-Fraud-Detection-Kaggle-Dataset数据集因其高度不平衡的特性，常被用于开发和测试欺诈检测算法。研究者通过该数据集，能够模拟真实世界中的信用卡交易场景，尤其是在处理极少数的欺诈案例时，如何提升检测的准确性和效率。

解决学术问题

该数据集解决了信用卡欺诈检测中的样本不平衡问题。由于欺诈交易仅占全部交易的极小比例，传统的机器学习模型往往难以有效识别欺诈行为。通过该数据集，研究者可以探索各种不平衡数据处理技术，如过采样、欠采样或集成学习方法，从而提高模型的分类性能。此外，该数据集还为研究基于PCA的特征提取方法提供了实验基础。

衍生相关工作

基于该数据集，许多经典的研究工作得以展开。例如，研究者提出了多种基于深度学习的欺诈检测模型，如卷积神经网络（CNN）和长短期记忆网络（LSTM），以应对数据不平衡和高维特征的挑战。此外，该数据集还催生了一系列关于特征选择和模型优化的研究，推动了金融欺诈检测领域的技术进步。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集