five

IT-AML|反洗钱数据集|金融交易数据集

收藏
github2024-10-18 更新2024-10-19 收录
反洗钱
金融交易
下载链接:
https://github.com/aniljayakar/AMLProject
下载链接
链接失效反馈
资源简介:
IT-AML数据集是由IBM研究人员开发的合成数据集,用于反洗钱检测。该数据集包含六个子集,按非法交易的比例分类为高非法比例(HI)和低非法比例(LI)。主要使用的是高非法比例的小数据集,包含5,078,345笔金融交易,跨越10天。每笔交易由11个属性表示,包括时间戳、发送和接收账户的详细信息、交易金额、货币类型、支付方式和是否为非法交易。
创建时间:
2024-10-17
原始信息汇总

数据集概述

数据集信息

  • 名称: IT-AML
  • 来源: Kaggle
  • 开发者: IBM
  • 类别: 反洗钱(AML)
  • 子集:
    • Group HI (高非法交易比率)
    • Group LI (低非法交易比率)

数据集详情

  • 日期范围: 2022年8月1日至2022年11月5日
  • 交易天数:
    • SMALL: 10天
    • MEDIUM: 16天
    • LARGE: 97天
  • 银行账户数量:
    • SMALL: 515K
    • MEDIUM: 2077K
    • LARGE: 2116K
  • 交易数量:
    • SMALL: 5M
    • MEDIUM: 32M
    • LARGE: 180M
  • 非法交易数量:
    • SMALL: 5.1K
    • MEDIUM: 35K
    • LARGE: 223K
  • 非法交易率:
    • SMALL: 1/981
    • MEDIUM: 1/905
    • LARGE: 1/807

主要使用数据集

  • 大小: SMALL
  • 非法交易比率: 高
  • 交易数量: 5,078,345
  • 交易天数: 10天

数据属性

  • Timestamp: 交易的确切日期和时间
  • From Bank & Account / To Bank & Account: 发送和接收账户的详细信息
  • Amount Received & Amount Paid: 交易金额
  • Receiving Currency & Payment Currency: 涉及的货币类型
  • Payment Format: 支付方式
  • Is Laundering: 二进制指示符,显示交易是否为非法(洗钱)

数据预处理

  • 缺失值检查: 检查缺失值和NaN值
  • 数据类型调整: 调整原始特征的数据类型
  • 时间特征衍生: 从时间戳中衍生出DayOfWeek和Hour等新特征
  • 偏度和异常值处理: 使用Matplotlib和Seaborn可视化Amount Paid和Amount Received的偏度,并应用对数变换处理异常值
  • 类别不平衡处理: 使用上采样和下采样方法处理类别不平衡问题

特征工程

  • 图特征: 度中心性、局部聚类系数、Ego网络大小等
  • 交易特征: 首次交易后的时间、24小时内的小额交易、滚动平均值等
  • 高级特征: 接近阈值、潜在的Smurfing、潜在的结构化等
  • 分类特征编码: 对Receiving Currency、Payment Currency和Payment Format应用目标编码
  • 银行集群: 使用K-Means聚类将银行分组,并根据风险水平进行序数编码
  • 时间特征: 从Timestamp中衍生出DayOfWeek和Hour,并应用sin和cos变换

数据分割

  • 时间分割: 按时间戳将数据分为训练集和测试集
    • 训练数据: 2022-09-01至2022-09-08
    • 测试数据: 2022-09-09至2022-09-18
  • 类别不平衡处理: 使用上采样和下采样方法处理类别不平衡问题

模型评估

  • 评估指标:
    • 少数类别的精确度、召回率和F1分数
    • AUC-ROC曲线
    • 精确度-召回率曲线
    • 混淆矩阵
AI搜集汇总
数据集介绍
main_image_url
构建方式
IT-AML数据集由IBM的研究人员开发,旨在模拟反洗钱(AML)检测中的真实交易环境。该数据集包含六个子集,按非法交易比例分为高非法比例(HI)和低非法比例(LI)两类。每个子集涵盖不同的时间范围和交易量,从10天到97天不等。数据集的构建过程中,研究人员特别关注了时间戳、交易金额、货币类型等11个关键属性,并通过合成数据有效解决了现实世界数据集中常见的重叠和标签问题。此外,数据集还进行了初步的缺失值检查、数据类型调整以及时间相关特征的衍生,以确保数据的质量和适用性。
使用方法
使用IT-AML数据集时,首先需要进行数据预处理,包括缺失值处理、数据类型转换和时间相关特征的衍生。随后,可以根据研究需求选择合适的子集进行分析。数据集支持多种机器学习模型的训练,如决策树、随机森林、XGBoost等,特别适用于处理类不平衡问题。在模型训练过程中,建议采用交叉验证和时间序列分割等方法,以确保模型的泛化能力和实际应用效果。最终,通过评估指标如AUC-ROC曲线、精确率-召回率曲线等,可以全面评估模型的性能。
背景与挑战
背景概述
在反洗钱(AML)领域,IBM的研究团队开发了名为IT-AML的合成数据集,旨在通过机器学习模型检测洗钱活动。该数据集由IBM的研究人员@ealtman741和@stevemar创建,主要用于探索特征工程和处理类别不平衡问题,以提高模型在检测非法交易中的性能。IT-AML数据集包含六个子集,按非法交易比例分类,涵盖了从2022年9月1日至11月5日的交易数据。该数据集的创建不仅解决了实际反洗钱数据集中常见的重叠和标签问题,还为研究提供了高质量的合成数据,极大地推动了反洗钱技术的发展。
当前挑战
IT-AML数据集在构建过程中面临多个挑战。首先,数据集的类别不平衡问题显著,非法交易与合法交易的比例约为1:1000,这使得模型在训练时难以有效捕捉少数类别的特征。其次,数据预处理阶段需要处理大量的缺失值和异常值,同时确保时间序列数据的完整性和一致性。此外,特征工程过程中需要创建多种图基、交易基和聚合特征,以捕捉洗钱活动的复杂模式。最后,模型评估时需采用适合不平衡数据集的评估指标,如AUC-ROC曲线和精确召回曲线,以准确衡量模型在检测非法交易中的性能。
常用场景
经典使用场景
在反洗钱(AML)领域,IT-AML数据集的经典使用场景主要集中在通过机器学习模型检测金融交易中的洗钱活动。该数据集通过模拟高比例的非法交易,为研究人员提供了一个理想的实验平台。通过特征工程和处理类别不平衡问题,研究人员可以训练和优化模型,以提高对非法交易的识别精度。这种场景不仅有助于学术研究,也为金融机构提供了实际应用的参考。
解决学术问题
IT-AML数据集解决了反洗钱领域中常见的学术研究问题,如类别不平衡和特征工程的有效性。通过提供一个包含高比例非法交易的合成数据集,它帮助研究人员探索和验证各种机器学习算法在处理不平衡数据时的性能。此外,该数据集还促进了时间序列分析和图论在金融交易网络中的应用,为学术界提供了新的研究方向和方法。
实际应用
在实际应用中,IT-AML数据集为金融机构提供了一个强大的工具,用于开发和测试反洗钱系统。通过模拟真实的交易环境和复杂的洗钱模式,金融机构可以评估和优化其反洗钱策略。此外,该数据集还支持实时监控和预警系统的开发,帮助金融机构及时识别和阻止潜在的洗钱活动,从而提高整体风险管理水平。
数据集最近研究
最新研究方向
在反洗钱(AML)领域,IT-AML数据集的最新研究方向主要集中在通过先进的特征工程和处理类别不平衡问题来提升机器学习模型的检测性能。研究者们致力于开发图结构特征、交易特征和聚合特征,以捕捉洗钱活动的细微差别。此外,时间序列分析和高级特征如结构化评分和潜在洗钱行为的二元指标也被广泛应用。这些研究不仅提升了模型的准确性和召回率,还为金融机构提供了更强大的工具来识别和预防洗钱活动,从而对金融安全和合规性产生了深远的影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台 收录