five

Credit Card Fraud Detection Dataset|信用卡欺诈检测数据集|交易分析数据集

收藏
github2023-03-09 更新2024-05-31 收录
信用卡欺诈检测
交易分析
下载链接:
https://github.com/p1halani/Credit-Card-Fraud-Detection-on-Highly-Imbalanced-Dataset
下载链接
链接失效反馈
资源简介:
该数据集包含2013年9月欧洲信用卡持卡人的交易记录。数据集在两天内发生了284,807笔交易,其中492笔为欺诈交易。数据集高度不平衡,欺诈交易(正类)占所有交易的0.172%。数据集仅包含数值输入变量,这些变量是PCA转换的结果。由于保密问题,无法提供原始特征和更多背景信息。特征V1至V28是通过PCA获得的主成分,未经过PCA转换的特征是Time和Amount。Time特征包含每笔交易与数据集中第一笔交易之间的秒数差,Amount特征是交易金额,可用于基于示例的成本敏感学习。Class特征是响应变量,欺诈时取值1,否则取值0。

This dataset comprises transaction records of European credit card holders from September 2013. Over the span of two days, the dataset recorded 284,807 transactions, out of which 492 were fraudulent. The dataset is highly imbalanced, with fraudulent transactions (positive class) constituting 0.172% of all transactions. The dataset exclusively contains numerical input variables, which are the result of PCA (Principal Component Analysis) transformation. Due to confidentiality issues, the original features and additional background information cannot be provided. Features V1 through V28 are the principal components obtained through PCA, while the features not subjected to PCA transformation are Time and Amount. The Time feature represents the difference in seconds between each transaction and the first transaction in the dataset, and the Amount feature denotes the transaction amount, which can be utilized for cost-sensitive learning based on examples. The Class feature is the response variable, taking the value 1 in case of fraud and 0 otherwise.
创建时间:
2020-04-14
原始信息汇总

数据集概述

数据集名称

Credit Card Fraud Detection

数据集描述

该数据集包含2013年9月欧洲信用卡用户的交易记录。数据集涵盖了两天的交易,其中492笔为欺诈交易,总交易次数为284,807次。数据集极度不平衡,欺诈交易(正类)占所有交易的0.172%。

数据集特征

  • 输入变量:数据集仅包含数值型输入变量,这些变量是PCA转换的结果。由于保密问题,原始特征和更多背景信息未提供。
  • 特征说明
    • V1至V28:通过PCA获得的主成分。
    • Time:每笔交易与数据集中第一笔交易之间经过的秒数。
    • Amount:交易金额,可用于依赖示例的成本敏感学习。
    • Class:响应变量,欺诈时为1,否则为0。

数据字典

列位置 属性名称 定义 数据类型 示例 空值比例
1 Time 时间:以秒为单位的时间格式 定量 0,1,2 ?
2 V1-V28 可能是通过PCA维度降低以保护用户身份和敏感特征的结果(v1-v28) 定量 0.16648011335321, 0.26615071205963 ?
3 Amount 交易金额 定量 378.66, 69.99 ?
4 Class 欺诈交易为1,否则为0 定量 0, 1, 0 ?

数据集来源

该数据集由Worldline和ULB(布鲁塞尔自由大学)的机器学习组合作收集和分析,用于大数据挖掘和欺诈检测研究。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由欧洲持卡人在2013年9月进行的信用卡交易数据构成,涵盖了为期两天的交易记录,共包含284,807笔交易,其中492笔为欺诈交易。由于涉及用户隐私和敏感信息,原始特征经过主成分分析(PCA)处理,生成了28个主成分特征(V1-V28),仅保留了未经PCA处理的‘Time’和‘Amount’两个特征。‘Time’表示每笔交易与数据集中第一笔交易的时间间隔(以秒为单位),‘Amount’为交易金额,‘Class’为目标变量,标记是否为欺诈交易(1为欺诈,0为正常)。
特点
该数据集的主要特点在于其高度不平衡性,欺诈交易仅占全部交易的0.172%,这对模型的训练和评估提出了挑战。所有特征均为数值型,其中V1-V28是通过PCA降维得到的匿名化特征,有效保护了用户隐私。‘Amount’特征可用于基于交易金额的成本敏感学习,而‘Time’特征则为时间序列分析提供了可能。数据集的简洁性和匿名化处理使其成为研究信用卡欺诈检测的理想选择。
使用方法
该数据集适用于信用卡欺诈检测模型的开发与评估。研究人员可通过机器学习或深度学习算法,利用V1-V28特征和‘Amount’特征构建分类模型,并通过‘Class’标签评估模型性能。由于数据不平衡,建议采用过采样、欠采样或代价敏感学习等技术处理类别不平衡问题。此外,‘Time’特征可用于时间序列分析,探索欺诈行为的时间分布规律。数据集还可用于对比不同算法的性能,推动欺诈检测领域的研究进展。
背景与挑战
背景概述
信用卡欺诈检测数据集(Credit Card Fraud Detection Dataset)由Worldline与布鲁塞尔自由大学(Université Libre de Bruxelles)的机器学习研究组于2013年合作创建,旨在通过大数据挖掘技术识别信用卡交易中的欺诈行为。该数据集记录了2013年9月欧洲持卡人在两天内完成的284,807笔交易,其中包含492笔欺诈交易,欺诈比例仅为0.172%。由于数据敏感性,原始特征经过主成分分析(PCA)处理,仅保留了28个主成分特征(V1-V28),以及未经处理的交易时间(Time)和交易金额(Amount)特征。该数据集为金融领域的欺诈检测研究提供了重要的实验基础,推动了机器学习在金融安全中的应用。
当前挑战
信用卡欺诈检测数据集面临的主要挑战包括数据不平衡问题和特征解释性不足。由于欺诈交易仅占极小比例,模型在训练过程中容易偏向多数类,导致对欺诈行为的检测效果不佳。此外,数据集中的特征经过PCA处理,虽然保护了用户隐私,但也使得特征的解释性显著降低,难以直接关联到具体的交易行为或用户信息。构建过程中,研究人员还需应对数据采集的复杂性和隐私保护问题,如何在确保数据安全的前提下提供足够的信息以支持有效的欺诈检测,成为该领域的重要研究方向。
常用场景
经典使用场景
信用卡欺诈检测数据集(Credit Card Fraud Detection Dataset)广泛应用于金融科技领域,特别是在欺诈检测模型的开发与验证中。该数据集通过提供大量真实的信用卡交易记录,帮助研究人员构建和测试机器学习模型,以识别异常交易行为。由于数据集中欺诈交易的比例极低,研究者常利用该数据集来探索不平衡数据分类问题,并开发高效的异常检测算法。
解决学术问题
该数据集为解决信用卡欺诈检测中的不平衡分类问题提供了重要支持。由于欺诈交易仅占极小比例,传统的分类算法往往难以有效识别欺诈行为。通过该数据集,研究者可以开发并验证基于过采样、欠采样或集成学习的方法,以提升模型在不平衡数据上的性能。此外,该数据集还推动了基于PCA的特征工程研究,为保护用户隐私的同时提取有效特征提供了范例。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究者提出了多种基于深度学习的欺诈检测模型,如LSTM和Autoencoder,以捕捉交易序列中的复杂模式。此外,该数据集还催生了多篇关于不平衡数据处理和特征选择的学术论文,推动了相关领域的技术进步。这些工作不仅提升了欺诈检测的准确性,还为其他领域的异常检测研究提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。时间为北京时间。

国家海洋科学数据中心 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

PASCAL VOC 2007

这个挑战的目标是从现实场景中的许多视觉对象类别中识别对象(即不是预先分割的对象)。它基本上是一个监督学习问题,因为它提供了一组标记图像的训练集。已选择的 20 个对象类别是: 人:人 动物:鸟、猫、牛、狗、马、羊 交通工具:飞机、自行车、船、公共汽车、汽车、摩托车、火车 室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器 将有两个主要比赛和两个较小规模的“品酒师”比赛。内容:提供的训练数据由一组图像组成;每个图像都有一个注释文件,为图像中存在的 20 个类别之一中的每个对象提供一个边界框和对象类别标签。请注意,来自多个类的多个对象可能出现在同一图像中。

OpenDataLab 收录

CODrone

CODrone 是一个为无人机设计的全面定向目标检测数据集,它准确反映了真实世界条件。该数据集包含来自多个城市在不同光照条件下的广泛标注图像,增强了基准的逼真度。CODrone 包含超过 10,000 张高分辨率图像,捕获自五个城市的真实无人机飞行,涵盖了各种城市和工业环境,包括港口和码头。为了提高鲁棒性和泛化能力,它包括在正常光线、低光和夜间条件下相同场景的图像。我们采用了三种飞行高度和两种常用的相机角度,从而产生了六个不同的视角配置。所有图像都针对 12 个常见对象类别进行了定向边界框标注,总计超过 590,000 个标记实例。总体而言,这项工作构建了一个综合数据集和基准,用于城市无人机场景中的定向目标检测,旨在满足该领域的研究和实践应用需求。

arXiv 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录