five

Paysim1|金融欺诈检测数据集|行为分析数据集

收藏
github2024-10-27 更新2024-11-12 收录
金融欺诈检测
行为分析
下载链接:
https://github.com/adilsonulprabhakar/Bank-Fraud-Detection-Project
下载链接
链接失效反馈
资源简介:
该数据集模拟了30天内的交易,提供了合法和欺诈活动的行为洞察。数据集包含以下列:步骤(每步代表1小时)、交易类型、交易金额、发起客户ID、交易前后的账户余额、接收账户ID、接收账户交易前后的余额、是否为欺诈交易、是否被标记为可疑交易。
创建时间:
2024-10-26
原始信息汇总

Bank Fraud Detection Project

数据集概述

数据集来源

  • 数据集链接: https://www.kaggle.com/datasets/ealaxi/paysim1

项目概述

  • 该项目专注于检测银行数据集中的欺诈交易。分析利用交易的各种属性来识别欺诈的指示性模式。数据集模拟了30天内的交易,提供了合法和欺诈活动的行为洞察。

数据集描述

  • 数据集包含以下列:
    1. step:
      • 表示交易的时间单位,每一步相当于1小时。总步数为744,模拟30天。
    2. type:
      • 交易类型:
        • CASH-IN: 存款到账户。
        • CASH-OUT: 从账户取款。
        • DEBIT: 直接从账户取款。
        • PAYMENT: 向商家或服务支付。
        • TRANSFER: 账户之间的资金转移。
    3. amount:
      • 交易涉及的金额,以当地货币计。
    4. nameOrig:
      • 发起交易的客户ID。
    5. oldbalanceOrg:
      • 交易前发起账户的余额。
    6. newbalanceOrig:
      • 交易后发起账户的余额。
    7. nameDest:
      • 接收账户的ID。
    8. oldbalanceDest:
      • 交易前接收账户的余额。
    9. newbalanceDest:
      • 交易后接收账户的余额。
    10. isFraud:
      • 欺诈检测的目标列。值为1表示欺诈交易,0表示合法交易。
    11. isFlaggedFraud:
      • 指示交易是否被标记为可疑。被标记的交易涉及超过200,000的转账。

分析报告概述

  • 该报告概述了分析交易数据以检测欺诈活动的步骤。分析重点在于不同交易类型、金额和潜在的欺诈指示器。

探索的问题

  1. 总交易数量及其中欺诈交易的数量。
  2. 每种交易类型的交易数量及其中被标记为欺诈的数量。
  3. TRANSFERCASH_OUT类型的平均和最大交易金额,以及每种类型的欺诈交易数量。
  4. 涉及欺诈交易的账户余额是否存在差异。
  5. CASH_OUTTRANSFER类型的欺诈交易详情,以及涉及的唯一账户数量。
  6. 如何将交易分类到不同范围并分析不同交易规模的欺诈率。
  7. 交易类型与其金额之间的关系,以及每种类型和类别的欺诈交易百分比。
  8. 如果在分析过程中不知道特定步骤(例如步骤212),如何识别每种交易类型的交易数量。
  9. 每种交易类型在步骤212的交易数量。
  10. 每个分类范围的交易金额及其中欺诈交易的数量。
  11. 交易金额与欺诈交易数量之间的关系。
  12. 不同交易类型的平均、最大和最小交易金额及每种类型的欺诈交易数量。
  13. 每种交易类型在不同分类金额范围内的欺诈交易百分比。
  14. 基于交易类型和金额类别的欺诈交易细分。

结论

  • 分析提供了交易数据中可能指示欺诈行为的模式和异常的洞察。通过结构化的提问方法,系统地揭示了这些洞察,有助于更好地理解交易欺诈的动态。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在金融欺诈检测领域,Paysim1数据集通过模拟30天内的银行交易活动,构建了一个包含744个时间步长的数据集。每个时间步长代表1小时,涵盖了五种交易类型:存款、取款、借记、支付和转账。数据集详细记录了每笔交易的金额、交易双方账户的余额变化以及是否为欺诈交易。通过这种方式,Paysim1数据集为研究人员提供了一个全面且细致的金融交易模拟环境,旨在帮助识别和分析欺诈行为。
特点
Paysim1数据集的显著特点在于其高度模拟的真实交易环境,涵盖了多种交易类型和详细的账户余额信息。此外,数据集还包含了一个关键的目标列——isFraud,用于标识每笔交易是否为欺诈,这为机器学习和数据分析提供了明确的目标变量。另一个独特之处是isFlaggedFraud列,它标记了被系统识别为可疑的交易,特别是那些涉及大额转账的交易。这些特点使得Paysim1数据集成为金融欺诈检测研究的宝贵资源。
使用方法
使用Paysim1数据集进行研究时,研究人员可以首先加载数据并进行初步的数据清洗和预处理,以确保数据质量。随后,可以通过分析不同交易类型的分布、交易金额的统计特征以及欺诈交易的模式,来构建和验证欺诈检测模型。例如,可以利用机器学习算法如随机森林或支持向量机,结合数据集中的特征进行模型训练。此外,数据集中的isFlaggedFraud列可以作为模型评估的一个参考标准,帮助研究人员理解模型的性能和局限性。
背景与挑战
背景概述
在金融科技迅速发展的背景下,银行欺诈检测成为保障金融系统安全的关键环节。Paysim1数据集由主要研究人员或机构创建,旨在模拟30天内的银行交易,以识别和分析欺诈行为。该数据集的核心研究问题集中在通过交易属性识别欺诈模式,对金融欺诈检测领域具有重要影响力。自创建以来,Paysim1已成为研究者和金融机构在欺诈检测算法开发和验证中的重要资源。
当前挑战
Paysim1数据集在构建和应用过程中面临多项挑战。首先,模拟真实交易环境的复杂性要求数据集能够准确反映各种交易类型和金额的分布。其次,欺诈检测的准确性依赖于对交易模式和异常行为的深入分析,这需要处理大量数据并识别细微的欺诈迹象。此外,数据集中涉及的账户余额变化和交易类型多样性增加了模型训练的难度,要求算法具备高度的适应性和精确性。
常用场景
经典使用场景
在金融科技领域,Paysim1数据集被广泛用于欺诈检测的研究。该数据集通过模拟30天内的银行交易,提供了丰富的交易细节,包括交易类型、金额、账户余额变化等。研究者利用这些数据,通过机器学习算法识别出潜在的欺诈模式,从而提高欺诈检测的准确性和效率。
衍生相关工作
基于Paysim1数据集,许多相关研究工作得以展开。例如,研究者通过分析不同交易类型的欺诈模式,提出了新的欺诈检测算法。此外,该数据集还被用于评估和比较不同欺诈检测模型的性能,推动了欺诈检测技术的发展。这些衍生工作不仅丰富了金融科技领域的研究内容,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在金融欺诈检测领域,Paysim1数据集的最新研究方向主要集中在利用机器学习和深度学习技术来提高欺诈交易的识别精度。研究者们通过分析交易类型、金额、账户余额变化等特征,构建复杂的模型以捕捉欺诈行为的细微差别。此外,随着金融科技的快速发展,研究热点还包括如何实时处理和分析大规模交易数据,以实现即时欺诈预警和响应。这些研究不仅有助于提升金融机构的风险管理能力,也为制定更有效的反欺诈策略提供了科学依据。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录