Fraud Transaction Detection Dataset|欺诈检测数据集|交易数据数据集
收藏github2024-10-08 更新2024-10-26 收录
下载链接:
https://github.com/mkuangdotcom/Fraud_Detection
下载链接
链接失效反馈资源简介:
该数据集包含1.75百万笔交易,由模拟用户在2023年1月至6月期间生成。数据集高度不平衡,仅有0.1345%的交易被分类为欺诈。
创建时间:
2024-10-02
原始信息汇总
欺诈交易检测数据集
数据集概述
- 链接: Fraud Transaction Detection Dataset
- 描述:
- 数据集包含175万笔交易,由模拟用户在2023年1月至2023年6月期间生成。
- 数据集高度不平衡,仅有0.1345%的交易被标记为欺诈。
项目概述
1. 数据分析
- 不平衡问题: 数据集不平衡,欺诈交易数量远少于合法交易,可能导致模型性能偏差。
2. 数据预处理
- 合成少数类过采样技术 (SMOTE): 用于生成少数类(欺诈交易)的合成样本,以改善模型检测欺诈的能力。
- 步骤:
- 训练-测试分割: 数据集按80/20比例分为训练集和测试集,仅对训练集应用SMOTE。
- 预处理:
- 最小-最大缩放: 使用
MinMaxScaler()将所有数值特征缩放到0到1之间。 - 分类编码: 使用
OneHotEncoder(handle_unknown=ignore)对分类特征进行编码。
- 最小-最大缩放: 使用
3. 模型开发
- Keras顺序神经网络: 用于分类交易为欺诈或合法。
-
模型架构: python nn_model = keras.Sequential([ keras.layers.Input(shape=(X_train_resampled.shape[1],)), keras.layers.Dense(64, activation=relu), keras.layers.Dropout(0.2), keras.layers.Dense(32, activation=relu), keras.layers.Dropout(0.2), keras.layers.Dense(1, activation=sigmoid) ])
-
Dropout层: 通过随机关闭部分神经元来减少过拟合。
-
4. 结果
- 训练历史: 训练和验证准确率无显著偏差或波动,表明模型在处理不平衡数据时表现良好。
- 混淆矩阵: 显示模型在检测欺诈交易方面的性能。
- 分类报告:
- 合法交易 (0): 精确度0.96,召回率0.96,F1-Score 0.96,支持303,637。
- 欺诈交易 (1): 精确度0.74,召回率0.73,F1-Score 0.74,支持47,194。
- 准确率: 0.93。
- 宏平均: 精确度0.85,召回率0.85,F1-Score 0.85,支持350,831。
- 加权平均: 精确度0.93,召回率0.93,F1-Score 0.93,支持350,831。
结论
- 模型达到93%的准确率,欺诈交易的精确度和召回率为0.74。
- 模型能有效识别欺诈活动,但仍有改进空间,特别是欺诈交易的召回率。
AI搜集汇总
数据集介绍

构建方式
在金融行业的快速发展背景下,欺诈交易检测数据集通过模拟用户在2023年1月至6月期间的交易行为,生成了包含175万笔交易的数据集。该数据集的构建旨在通过分析客户的交易历史、消费模式和账户行为,识别异常交易并预防金融损失。数据集的生成过程中,特别关注了交易的不平衡性,其中仅有0.1345%的交易被标记为欺诈,这种不平衡性为模型训练带来了挑战,但也为实际应用中的欺诈检测提供了更真实的模拟环境。
特点
欺诈交易检测数据集的主要特点在于其高度不平衡的类别分布,这反映了现实世界中欺诈交易的罕见性。此外,数据集包含了丰富的交易细节,如交易金额、客户ID和终端ID等,这些特征为模型提供了多维度的分析基础。通过使用合成少数类过采样技术(SMOTE),数据集在预处理阶段得到了平衡,从而提高了模型对欺诈交易的检测能力。
使用方法
使用欺诈交易检测数据集时,首先需进行数据预处理,包括对数值特征进行最小-最大缩放(Min-Max Scaling)和对分类特征进行独热编码(OneHotEncoder)。随后,数据集应按80/20的比例划分为训练集和测试集,并在训练集上应用SMOTE技术以平衡类别分布。模型训练阶段,推荐使用Keras顺序神经网络,通过添加Dropout层来减少过拟合。最终,通过训练历史、混淆矩阵和分类报告等评估指标,可以全面分析模型的性能,确保其在实际应用中的有效性。
背景与挑战
背景概述
随着金融行业的快速发展,欺诈交易检测已成为一个至关重要的研究领域。Fraud Transaction Detection Dataset由Sanskar457于2023年创建,旨在通过分析客户的交易历史、消费模式和账户行为,识别异常交易并预防金融损失。该数据集包含175万笔从2023年1月至6月生成的模拟交易,其中仅有0.1345%的交易被标记为欺诈。这一数据集的创建不仅为金融欺诈检测提供了宝贵的资源,还推动了相关领域的研究进展,特别是在处理高度不平衡数据方面。
当前挑战
Fraud Transaction Detection Dataset面临的主要挑战之一是其高度不平衡的特性,仅有0.1345%的交易被标记为欺诈,这可能导致模型在检测欺诈交易时表现不佳。此外,数据集的构建过程中,研究人员采用了合成少数类过采样技术(SMOTE)来平衡数据,但如何在保持数据真实性的同时有效处理不平衡问题仍是一个难题。模型的开发和评估也面临挑战,如如何在不引入偏差的情况下评估模型性能,以及如何通过调整模型架构和参数来提高欺诈交易的检测精度。
常用场景
经典使用场景
在金融科技领域,欺诈交易检测数据集的经典使用场景主要集中在通过分析客户的交易历史、消费模式和账户行为,识别异常交易并预测潜在的欺诈活动。该数据集通过模拟用户在2023年1月至6月间的交易行为,提供了丰富的数据资源,使得研究人员和金融机构能够开发和优化欺诈检测模型,从而有效预防金融损失。
解决学术问题
欺诈交易检测数据集解决了金融领域中一个关键的学术问题,即如何在高不平衡数据集中准确识别和预测欺诈行为。该数据集通过提供大量真实模拟的交易数据,帮助研究人员探索和验证各种机器学习算法在处理不平衡数据时的性能,从而推动了欺诈检测技术的发展,提升了模型的准确性和鲁棒性。
衍生相关工作
基于欺诈交易检测数据集,许多相关研究工作得以展开,包括但不限于改进数据预处理技术、优化模型架构和探索新的机器学习算法。例如,合成少数类过采样技术(SMOTE)的应用和深度学习模型的开发,都是该数据集衍生的经典工作,这些研究成果进一步推动了欺诈检测领域的技术进步。
以上内容由AI搜集并总结生成
