Credit Card Fraud Detection Dataset|信用卡欺诈检测数据集
收藏数据集概述
数据集信息
- 名称: Credit Card Fraud Detection Dataset
- 描述: 包含信用卡使用的交易数据,包括欺诈和合法交易。
- 样本总数: 284,807 笔交易
- 数据集链接: Credit Card Fraud Detection Dataset
数据预处理
- 类别平衡: 使用 SMOTE (Synthetic Minority Over-sampling Technique) 处理类别不平衡问题。
- 特征缩放: 应用 MinMaxScaler 进行数据缩放,使其与模型兼容。
模型实现
- Restricted Boltzmann Machine (RBM): 用于特征提取,减少数据维度同时保留交易的关键模式。
- Variational Autoencoder (VAE): 通过重建输入数据检测异常,重建误差较高的交易被标记为潜在欺诈。
- Generative Adversarial Network (GAN): 生成合成交易以增强数据,通过训练判别器区分真实和合成交易来提高异常检测的鲁棒性。
评估指标
- Precision
- Recall
- F1-score
结果
- RBM: 成功提取有意义的特征,增强了模型区分正常和异常交易的能力。
- VAE: 通过重建误差有效识别异常,较高的误差通常对应于欺诈交易。
- GAN: 生成的合成数据提高了模型识别欺诈模式的能力,训练后的判别器在检测异常方面显示出显著改进。
结论
RBM、VAE 和 GAN 的结合在检测信用卡交易数据中的异常方面表现出强大的性能。RBM 改进了特征提取,VAE 通过重建误差标记异常,GAN 通过生成合成数据提高了欺诈检测的准确性。未来的改进可能涉及探索混合模型,以在高度不平衡的数据集中更好地进行异常检测。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
全国景区数据
中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。 CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!
CnOpenData 收录
NASA Exoplanet Archive
Exoplanets specifies Confirmed Planets.
kaggle 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录