five

Credit-Card-Fraud-Detection

收藏
github2021-12-28 更新2024-05-31 收录
下载链接:
https://github.com/Tusharbhawsar/Credit-Card-Fraud-Detection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2013年9月欧洲信用卡持有者进行的交易记录。数据集展示了两天内的交易情况,其中492笔为欺诈交易,占总交易量的0.172%。数据集高度不平衡,仅包含数值输入变量,这些变量是经过PCA转换的结果。由于保密问题,无法提供原始特征和更多背景信息。特征V1至V28是通过PCA获得的主成分,未经过PCA转换的特征是Time和Amount。Time特征表示每笔交易与数据集中第一笔交易之间的秒数。

This dataset comprises transaction records of European credit card holders conducted in September 2013. It displays transactions over a two-day period, including 492 fraudulent transactions, accounting for 0.172% of the total transactions. The dataset is highly imbalanced and contains only numerical input variables, which are the results of PCA transformation. Due to confidentiality issues, the original features and more background information cannot be provided. Features V1 through V28 are the principal components obtained through PCA, while the features not transformed by PCA are Time and Amount. The Time feature represents the number of seconds elapsed between each transaction and the first transaction in the dataset.
创建时间:
2021-11-12
原始信息汇总

数据集概述

数据集名称

Credit-Card-Fraud-Detection

数据集内容

  • 包含2013年9月欧洲信用卡持有者的交易记录。
  • 数据集涵盖了两天的交易情况,其中492笔为欺诈交易,总交易次数为284,807。
  • 欺诈交易占总交易的比例为0.172%,数据集高度不平衡。

数据集特征

  • 数据集仅包含数值型输入变量,这些变量是经过PCA(主成分分析)转换的结果。
  • 特征包括V1至V28,这些是通过PCA获得的。
  • 未经过PCA转换的特征有:
    • Time:表示每笔交易与数据集中第一笔交易之间经过的秒数。
    • Amount:交易金额。

模型应用

  • 在数据集上应用了逻辑回归模型。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于2013年9月,记录了欧洲持卡人在两天内的信用卡交易数据。数据集包含284,807笔交易,其中492笔为欺诈交易。由于数据隐私问题,原始特征无法公开,因此所有输入变量均通过主成分分析(PCA)进行了转换,生成了28个主成分特征(V1至V28)。此外,数据集保留了未经PCA处理的‘Time’和‘Amount’两个特征,分别表示每笔交易与数据集中第一笔交易的时间间隔(秒)以及交易金额。
特点
该数据集的一个显著特点是其高度不平衡性,欺诈交易仅占总交易量的0.172%。这种不平衡性为欺诈检测模型的训练带来了挑战。数据集中的所有特征均为数值型,且大部分特征经过PCA处理,确保了数据的匿名性和安全性。‘Time’和‘Amount’作为未经转换的特征,为模型提供了额外的上下文信息。这种设计使得数据集既适合用于研究不平衡分类问题,也为探索时间序列和金额对欺诈检测的影响提供了可能。
使用方法
该数据集主要用于信用卡欺诈检测模型的开发与评估。研究人员可以通过加载数据集,利用机器学习算法(如逻辑回归)对欺诈交易进行分类预测。由于数据集的高度不平衡性,建议采用过采样、欠采样或合成少数类过采样技术(SMOTE)等方法来优化模型性能。此外,可以通过特征工程进一步挖掘‘Time’和‘Amount’的潜在信息,提升模型的预测精度。数据集的使用不仅限于欺诈检测,还可用于研究不平衡数据分类、时间序列分析等领域。
背景与挑战
背景概述
信用卡欺诈检测数据集(Credit-Card-Fraud-Detection)由欧洲持卡人在2013年9月的信用卡交易数据构成,旨在帮助信用卡公司识别欺诈交易,保护消费者权益。该数据集包含两天内的284,807笔交易,其中仅有492笔为欺诈交易,占比0.172%,呈现出高度不平衡的特性。数据经过主成分分析(PCA)处理,仅保留了数值型特征,原始特征因保密原因未公开。该数据集为金融领域的欺诈检测研究提供了重要支持,推动了机器学习在异常检测中的应用。
当前挑战
信用卡欺诈检测数据集面临的主要挑战包括数据的高度不平衡性,欺诈样本占比极低,导致模型训练时容易偏向多数类,影响检测效果。此外,由于数据经过PCA处理,原始特征信息缺失,限制了特征工程的深度探索。构建过程中,数据隐私保护与信息可用性之间的平衡也成为一大难题,如何在确保用户隐私的同时提供足够的信息支持模型训练,是未来研究的重要方向。
常用场景
经典使用场景
在金融科技领域,信用卡欺诈检测是一个关键问题。Credit-Card-Fraud-Detection数据集广泛应用于机器学习模型的训练和评估,特别是在处理高度不平衡数据时。研究者通常利用该数据集开发分类算法,以识别异常交易行为,从而提升欺诈检测的准确性和效率。
解决学术问题
该数据集为解决信用卡欺诈检测中的不平衡分类问题提供了重要支持。通过提供大量真实交易数据,研究者能够探索和验证各种机器学习算法在不平衡数据上的表现,如过采样、欠采样和集成学习方法。这不仅推动了欺诈检测技术的发展,还为其他领域的类似问题提供了参考。
衍生相关工作
基于Credit-Card-Fraud-Detection数据集,许多经典研究工作得以展开。例如,研究者提出了基于深度学习的欺诈检测模型,如卷积神经网络(CNN)和长短期记忆网络(LSTM),以捕捉复杂的交易模式。此外,该数据集还催生了多种数据增强技术和模型优化方法,为不平衡数据分类问题提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作