Bank Account Fraud (BAF)
收藏arXiv2022-11-28 更新2024-06-21 收录
下载链接:
https://github.com/feedzai/bank-account-fraud
下载链接
链接失效反馈官方服务:
资源简介:
Bank Account Fraud (BAF) 数据集是由 Feedzai 和 Porto 大学科学学院合作创建的,旨在为机器学习研究提供一个大规模、隐私保护的现实表格数据集。该数据集通过应用最新的表格数据生成技术,基于一个匿名的真实世界银行账户开户欺诈检测数据集生成。数据集包含六种不同的变体,每种变体都包含了特定类型的数据偏差,以允许实践者测试机器学习方法的性能和公平性。这些数据集的应用领域主要集中在金融服务的欺诈检测,旨在解决在动态环境中评估新旧机器学习方法的性能和公平性的问题。
Bank Account Fraud (BAF) dataset was co-developed by Feedzai and the Faculty of Science of the University of Porto, aiming to provide a large-scale, privacy-preserving real-world tabular dataset for machine learning research. This dataset is generated based on an anonymized real-world bank account opening fraud detection dataset using state-of-the-art tabular data generation techniques. It includes six distinct variants, each containing specific types of data bias, to enable practitioners to test the performance and fairness of machine learning methods. These datasets are mainly applied in the field of financial service fraud detection, targeting the problem of evaluating the performance and fairness of both new and existing machine learning methods in dynamic environments.
提供机构:
Feedzai 2DCC Faculdade de Ciências da Universidade do Porto
创建时间:
2022-11-24
搜集汇总
数据集介绍

构建方式
Bank Account Fraud (BAF) 数据集的构建方式采用了最先进的表格数据生成技术,基于一个匿名化的、真实世界的银行账户开户欺诈检测数据集。通过应用这些技术,研究人员生成了一系列隐私保护的、大规模的、真实的表格数据集。为了保护申请人的隐私,研究人员在原始数据集的特征中加入了拉普拉斯噪声,并对个人信息的列进行了分类。此外,为了确保生成数据的质量,研究人员通过训练和测试机器学习模型,评估了生成数据集的预测性能和统计相似性。
特点
BAF 数据集的特点在于其真实性和动态性。数据集包含了一个基础数据集和五个具有不同数据偏差模式的变体,每个变体都包含特定类型的数据偏差,如群体规模差异、发生率差异和可分离性差异。这些变体使得数据集能够模拟现实世界中的各种情况,从而为研究者和实践者提供了一个更加完整和稳健的测试平台,用于评估机器学习方法和公平性。此外,数据集的时间跨度为八个月,涵盖了不同月份的申请情况,使得数据集能够反映现实世界中的时间动态变化。
使用方法
使用 BAF 数据集时,研究者可以根据需要选择基础数据集或具有不同数据偏差模式的变体。为了评估模型的性能和公平性,研究者可以在数据集上进行训练和测试。为了模拟现实世界中的情况,研究者可以使用前六个月的数据进行训练,后两个月的数据进行测试。此外,研究者还可以根据需要选择不同的公平性和性能指标,以及公平性感知模型。需要注意的是,由于数据集的动态性和时间跨度,模型训练和测试的过程可能需要根据实际情况进行调整,以确保模型能够适应现实世界中的变化。
背景与挑战
背景概述
在机器学习领域,尤其是公平机器学习(Fair ML)的研究中,现实世界的数据集对于评估新技术的有效性至关重要。然而,目前公开可用的数据集大多集中在计算机视觉和自然语言处理任务上,而表格数据——在许多高风险领域中普遍存在——却相对缺乏。为了弥补这一差距,研究人员Sérgio Jesus等人于2022年创建了Bank Account Fraud (BAF)数据集,这是首个公开可用的、大规模的、真实的表格数据集套件。该套件基于一个匿名化的、真实的银行账户开户欺诈检测数据集,通过应用最先进的表格数据生成技术生成。该数据集旨在解决现实应用中的常见挑战,包括时间动态性和显著的类别不平衡,并为实践者提供一个更现实、完整和稳健的测试平台,以评估新的和现有的方法。
当前挑战
BAF数据集面临的挑战主要包括:1) 所解决的领域问题,即银行账户开户欺诈检测中的公平性问题;2) 构建过程中所遇到的挑战,例如数据隐私保护、数据不平衡、时间动态性以及引入特定类型的数据偏差等。此外,由于现实世界中的欺诈行为是动态变化的,因此模型在静态环境中表现良好,但在更真实的动态环境中可能表现不佳,这也是一个重要的挑战。
常用场景
经典使用场景
在金融领域中,银行账户欺诈检测是确保金融服务安全性的关键。Bank Account Fraud (BAF) 数据集作为一个包含真实世界银行账户开户欺诈检测数据的大型、隐私保护的表格数据集,为机器学习研究人员和从业者提供了一个宝贵的资源。该数据集通过应用最先进的表格数据生成技术,在匿名化、真实世界的银行账户开户欺诈检测数据集上生成,涵盖了包括时间动态性和显著类别不平衡在内的挑战。此外,BAF 数据集还包含了特定类型的数据偏差,使得研究人员可以对其进行压力测试,以评估机器学习方法的性能和公平性。
解决学术问题
BAF 数据集解决了当前 Fair ML 研究中数据集的局限性问题。现有的 Fair ML 数据集通常存在样本规模小、数据过时、不是基于特定任务等问题。BAF 数据集则基于一个不同的欺诈应用场景,即银行账户开户,这是一个特别重要的用例,因为开户是现代社会的基本需求,而限制这种服务的获取可能会严重阻碍个人的福祉。此外,BAF 数据集还包含了敏感属性,如年龄、个人收入和就业状况,为 Fair ML 研究提供了更全面、更真实的测试平台。
衍生相关工作
BAF 数据集的发布为 Fair ML 研究领域带来了新的研究方向。例如,研究人员可以利用 BAF 数据集来研究如何设计更加公平的机器学习算法,以及如何解决数据偏差问题。此外,BAF 数据集还可以用于开发新的机器学习工具和框架,以促进机器学习在金融领域的更广泛应用。
以上内容由遇见数据集搜集并总结生成



