IT-AML|反洗钱数据集|金融交易数据集
收藏数据集概述
数据集信息
- 名称: IT-AML
- 来源: Kaggle
- 开发者: IBM
- 类别: 反洗钱(AML)
- 子集:
- Group HI (高非法交易比率)
- Group LI (低非法交易比率)
数据集详情
- 日期范围: 2022年8月1日至2022年11月5日
- 交易天数:
- SMALL: 10天
- MEDIUM: 16天
- LARGE: 97天
- 银行账户数量:
- SMALL: 515K
- MEDIUM: 2077K
- LARGE: 2116K
- 交易数量:
- SMALL: 5M
- MEDIUM: 32M
- LARGE: 180M
- 非法交易数量:
- SMALL: 5.1K
- MEDIUM: 35K
- LARGE: 223K
- 非法交易率:
- SMALL: 1/981
- MEDIUM: 1/905
- LARGE: 1/807
主要使用数据集
- 大小: SMALL
- 非法交易比率: 高
- 交易数量: 5,078,345
- 交易天数: 10天
数据属性
- Timestamp: 交易的确切日期和时间
- From Bank & Account / To Bank & Account: 发送和接收账户的详细信息
- Amount Received & Amount Paid: 交易金额
- Receiving Currency & Payment Currency: 涉及的货币类型
- Payment Format: 支付方式
- Is Laundering: 二进制指示符,显示交易是否为非法(洗钱)
数据预处理
- 缺失值检查: 检查缺失值和NaN值
- 数据类型调整: 调整原始特征的数据类型
- 时间特征衍生: 从时间戳中衍生出DayOfWeek和Hour等新特征
- 偏度和异常值处理: 使用Matplotlib和Seaborn可视化Amount Paid和Amount Received的偏度,并应用对数变换处理异常值
- 类别不平衡处理: 使用上采样和下采样方法处理类别不平衡问题
特征工程
- 图特征: 度中心性、局部聚类系数、Ego网络大小等
- 交易特征: 首次交易后的时间、24小时内的小额交易、滚动平均值等
- 高级特征: 接近阈值、潜在的Smurfing、潜在的结构化等
- 分类特征编码: 对Receiving Currency、Payment Currency和Payment Format应用目标编码
- 银行集群: 使用K-Means聚类将银行分组,并根据风险水平进行序数编码
- 时间特征: 从Timestamp中衍生出DayOfWeek和Hour,并应用sin和cos变换
数据分割
- 时间分割: 按时间戳将数据分为训练集和测试集
- 训练数据: 2022-09-01至2022-09-08
- 测试数据: 2022-09-09至2022-09-18
- 类别不平衡处理: 使用上采样和下采样方法处理类别不平衡问题
模型评估
- 评估指标:
- 少数类别的精确度、召回率和F1分数
- AUC-ROC曲线
- 精确度-召回率曲线
- 混淆矩阵

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
中性笔商品在不同地区天猫平台的销售渗透率分析数据
销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。
浙江省数据知识产权登记平台 收录