在线信用卡支付数据集

Name: 在线信用卡支付数据集
Creator: Lusis人工智能部，巴黎，法国
Published: 2022-06-27 17:57:08
License: 暂无描述

arXiv2022-06-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.13152v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用的数据集为法国一家主要银行的在线信用卡支付数据集，包含1000万条交易记录。数据集原始特征包括8个分类特征和2个数值特征，衍生特征为20个数值特征。该数据集用于评估重采样方法在高度不平衡数据集上的效果，主要关注信用卡欺诈检测问题。数据集的创建过程涉及从银行获取真实交易数据，并进行特征工程处理。应用领域主要集中在金融欺诈检测，旨在通过机器学习算法提高欺诈交易的识别率。

The dataset used in this study is an online credit card transaction dataset from a major French bank, containing 10 million transaction records. The original features of the dataset consist of 8 categorical features and 2 numerical features, with 20 derived numerical features. This dataset is utilized to evaluate the effectiveness of resampling methods on highly imbalanced datasets, with the main focus on the credit card fraud detection problem. The creation of this dataset involves acquiring real transaction data from the bank and performing feature engineering processing. Its application domain is primarily centered on financial fraud detection, with the goal of enhancing the recognition rate of fraudulent transactions through machine learning algorithms.

提供机构：

Lusis人工智能部，巴黎，法国

创建时间：

2022-06-27

搜集汇总

数据集介绍

构建方式

在线信用卡支付数据集构建于真实金融交易场景，源自法国某大型银行的实际业务数据，涵盖了千万级别的交易记录。该数据集整合了原始特征与衍生特征，原始特征包括八类分类变量与两类数值变量，衍生特征则通过计数、均值及差分等聚合运算生成二十项数值特征。数据集的构建过程严格遵循隐私保护原则，在保留交易行为本质的同时，通过特征工程手段增强了数据的表征能力，为高度不平衡的欺诈检测研究提供了坚实的实证基础。

特点

该数据集的核心特征在于其极端不平衡性，欺诈交易与正常交易的比例极为悬殊，这精准反映了现实世界中信用卡欺诈的稀缺性本质。数据集中包含丰富的异构特征，既有离散的分类属性，也有连续的数值指标，共同刻画了交易的多维特性。此外，数据集规模庞大，达到千万级别，确保了统计意义的可靠性，同时也对机器学习算法的计算效率提出了严峻挑战。这种真实、大规模且高度不平衡的特性，使其成为评估不平衡学习方法的理想测试平台。

使用方法

该数据集主要用于评估针对不平衡分类问题的重采样方法及梯度提升模型的性能。典型使用流程包括：首先进行可处理性研究，筛选出计算时间可行的重采样算法；随后将数据集按比例划分为训练集与验证集，并应用分类编码器处理类别特征；接着利用超参数优化框架对选定的梯度提升模型进行调优；最后在重采样后的数据上训练模型，并以精确率-召回率曲线下面积、精确率、召回率及F1分数等指标综合评价性能。研究结果表明，在该数据集上，单纯使用梯度提升模型优于多数重采样方法。

背景与挑战

背景概述

在线信用卡支付数据集由法国Lusis人工智能部门的François de la Bourdonnaye与Fabrice Daniel于2022年6月构建，旨在应对信用卡欺诈检测中数据高度不平衡的核心研究问题。该数据集源自一家主要法国银行的真实交易记录，包含1000万笔交易样本，涵盖原始特征与衍生特征，为机器学习模型提供了大规模、现实场景下的评估基准。其构建背景植根于金融安全领域的迫切需求，信用卡欺诈在全球范围内造成巨额经济损失，例如2020年欺诈损失达285.8亿美元，预计2027年将升至430亿美元。该数据集的发布推动了不平衡数据处理方法的研究，特别是在梯度提升与重采样技术的应用方面，为学术界与工业界提供了宝贵的实验平台，促进了欺诈检测算法的优化与创新。

当前挑战

在线信用卡支付数据集面临的挑战主要体现在两个维度。在领域问题层面，信用卡欺诈检测的本质是极端不平衡分类任务，欺诈交易仅占极小比例，导致机器学习模型易偏向多数类，难以捕捉欺诈模式；同时，概念漂移现象使欺诈行为随时间动态演变，增加了模型持续适应的难度。在构建过程中，挑战包括数据规模与计算复杂性：处理千万级交易数据需要高效算法与强大计算资源，而许多先进重采样方法（如聚类中心法、SVM SMOTE等）因计算时间过长而无法实际应用；此外，特征工程需平衡原始类别特征与数值特征的表达，并确保衍生特征的统计有效性，以维持数据的真实性与代表性。

常用场景

经典使用场景

在金融欺诈检测领域，数据不平衡问题长期困扰着机器学习模型的性能优化。在线信用卡支付数据集作为真实场景下的高度不平衡数据集，其经典使用场景在于评估和比较多种重采样方法在欺诈检测任务中的有效性。该数据集通过包含大量正常交易与极少欺诈交易，模拟了实际银行系统中的数据分布，为研究者提供了一个基准平台，用以测试如SMOTE、ADASYN等过采样技术以及随机欠采样等方法的实际表现，从而探索在极端不平衡条件下提升模型召回率与精确度的策略。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在不平衡学习与欺诈检测算法的交叉领域。例如，基于其评估结果，后续研究进一步探索了代价敏感学习与梯度提升的结合，以替代传统重采样方法。同时，该数据集也促进了如CatBoost等专长于类别特征处理的模型在金融场景中的优化应用。此外，相关工作还扩展至概念漂移检测和实时学习框架，以应对交易数据动态变化的挑战，为后续大规模不平衡数据学习提供了理论和方法基础。

数据集最近研究