five

PaySim|欺诈检测数据集|模拟数据数据集

收藏
github2024-05-07 更新2024-05-31 收录
欺诈检测
模拟数据
下载链接:
https://github.com/apolisskaya/PaySim-Dataset-Supervised-Learning
下载链接
链接失效反馈
资源简介:
PaySim数据集包含超过600万个数据点,每个数据点包含9个特征,由PaySim零售模拟软件生成。该数据集用于欺诈和异常检测,其中欺诈行为模拟了通过转移资金并从系统中提取现金来获利的代理。

The PaySim dataset comprises over 6 million data points, each containing 9 features, generated by the PaySim retail simulation software. This dataset is utilized for fraud and anomaly detection, where fraudulent activities simulate agents profiting by transferring funds and withdrawing cash from the system.
创建时间:
2018-02-23
原始信息汇总

数据集概述

数据集名称

Fraud and Anomaly Detection using Synthetic Transactional Data

数据集目标

开发一种方法,以最小化评估新数据点时的假阴性。

数据集来源

Paysim 数据集,由 Paysim Retail Simulation Software 生成,包含超过600万个数据点。

数据集位置

Kaggle

数据集特征

  1. type: 交易类型,包括 CASH-IN, CASH-OUT, DEBIT, PAYMENT 和 TRANSFER。
  2. amount: 交易金额,以当地货币计。
  3. nameOrig: 发起交易的客户。
  4. oldbalanceOrg: 交易前的初始余额。
  5. newbalanceOrig: 交易后的新余额。
  6. nameDest: 交易接收方客户。
  7. oldbalanceDest: 接收方交易前的初始余额。注意,以 M(商户)开头的客户无此信息。
  8. newbalanceDest: 接收方交易后的新余额。注意,以 M(商户)开头的客户无此信息。

目标变量

  1. isFraud: 欺诈代理在模拟中进行的交易。

额外特征

Step: 交易发生的虚构时间。

AI搜集汇总
数据集介绍
main_image_url
构建方式
PaySim数据集通过Paysim零售模拟软件生成,涵盖了超过600万条交易记录,每条记录包含9个特征。该数据集模拟了真实的金融交易环境,旨在为欺诈检测提供高质量的合成数据。通过模拟不同类型的交易行为,包括CASH-IN、CASH-OUT、DEBIT、PAYMENT和TRANSFER,数据集详细记录了交易金额、交易双方账户信息及其余额变化,从而为研究欺诈行为提供了丰富的数据基础。
使用方法
PaySim数据集适用于多种机器学习任务,尤其是欺诈检测和异常检测。研究者可以通过加载数据集,利用Python中的NumPy、Pandas和scikit-learn等库进行数据预处理和模型训练。数据集中的'isFraud'标签可以直接作为目标变量,用于监督学习模型的训练。此外,数据集的丰富特征和时间序列特性也为特征工程和模型优化提供了广阔的空间。
背景与挑战
背景概述
PaySim数据集是由Paysim零售模拟软件生成的合成交易数据集,旨在模拟真实世界的金融交易以支持欺诈和异常检测的研究。该数据集包含超过600万个数据点,每个数据点具有9个特征,涵盖了交易的类型、金额、交易双方的信息及其账户余额变化等。PaySim数据集的创建旨在帮助研究人员开发能够最小化误报率的方法,特别是在评估新数据点时。该数据集的发布对金融欺诈检测领域具有重要意义,为研究人员提供了一个标准化的测试平台,以评估和改进欺诈检测算法的性能。
当前挑战
PaySim数据集在构建和应用过程中面临多项挑战。首先,数据集的合成性质可能导致与真实世界数据之间的差异,影响模型的泛化能力。其次,欺诈行为的复杂性和多样性使得准确识别异常交易成为一个难题。此外,数据集中包含的特征如'isFraud'标签的稀疏性,增加了模型训练的难度。最后,如何在最小化误报率的同时保持较高的检测率,是该数据集应用中的一个核心挑战。
常用场景
经典使用场景
PaySim数据集在金融欺诈检测领域中具有广泛的应用,其经典使用场景主要集中在通过机器学习算法识别和预测异常交易行为。由于数据集包含了超过600万条合成交易记录,涵盖了多种交易类型和详细的交易信息,研究者可以利用这些数据训练模型,以识别潜在的欺诈行为。例如,通过分析交易金额、账户余额变化以及交易双方的信息,模型能够有效区分正常交易与欺诈交易,从而为金融机构提供实时的风险预警。
解决学术问题
PaySim数据集在学术研究中解决了金融欺诈检测中的关键问题,特别是如何最小化误报率(false negatives)。通过提供大规模的合成交易数据,该数据集使得研究者能够在受控环境中测试和优化欺诈检测算法,从而提高模型的准确性和鲁棒性。此外,PaySim数据集还为研究者提供了一个标准化的基准,用于比较不同算法在欺诈检测任务中的性能,推动了该领域的技术进步。
实际应用
在实际应用中,PaySim数据集为金融机构提供了一个强大的工具,用于开发和部署欺诈检测系统。通过训练基于该数据集的模型,银行和支付平台能够实时监控交易活动,及时识别并阻止潜在的欺诈行为,从而保护客户资金安全。此外,该数据集还可用于员工培训,帮助他们更好地理解欺诈行为的特征,提升风险管理能力。
数据集最近研究
最新研究方向
在金融欺诈检测领域,PaySim数据集因其模拟的真实交易环境而备受关注。最新研究方向主要集中在通过机器学习算法优化欺诈检测模型,特别是减少误报率(false negatives),以提高检测的准确性和可靠性。研究者们利用深度学习、异常检测和集成学习等技术,探索如何更有效地识别复杂欺诈行为。此外,随着金融科技的快速发展,PaySim数据集的应用也扩展至实时交易监控和风险评估,为金融机构提供了重要的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

yuvidhepe/us-accidents-updated

这是一个覆盖美国49个州的全国性交通事故数据集,数据收集自2016年2月至2023年3月,通过多种交通API实时收集。目前数据集中包含约770万条交通事故记录,可用于实时交通事故预测、热点位置研究、伤亡分析以及环境因素对事故发生的影响研究等。

hugging_face 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录