Fraud Dataset Benchmark (FDB)

Name: Fraud Dataset Benchmark (FDB)
Creator: 亚马逊研究院
Published: 2023-09-22 22:50:22
License: 暂无描述

arXiv2023-09-22 更新2024-06-21 收录

下载链接：

https://github.com/amazon-research/fraud-dataset-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Fraud Dataset Benchmark (FDB) 是由亚马逊研究院创建的一个公开数据集集合，专门用于欺诈检测研究。该数据集包含多种与欺诈相关的任务，如识别非面对面交易欺诈、检测机器人攻击、分类恶意URL、评估贷款违约风险以及内容审核等。FDB提供了一个Python库，支持一致的数据加载API，并标准化了训练和测试分割。数据集涵盖了从信用卡欺诈到网络攻击等多个领域，旨在为欺诈检测领域的研究人员和实践者提供一个共同的研究平台，以开发针对各种欺诈用例的定制化机器学习技术。

The Fraud Dataset Benchmark (FDB) is a public dataset collection created by Amazon Research, specifically dedicated to fraud detection research. This collection includes a variety of fraud-related tasks, such as non-face-to-face transaction fraud identification, bot attack detection, malicious URL classification, loan default risk assessment, and content moderation. FDB provides a Python library that supports a unified data loading API and standardizes training and test splits. Covering multiple domains ranging from credit card fraud to cyber attacks, this benchmark aims to provide a shared research platform for researchers and practitioners in the fraud detection field to develop customized machine learning technologies for various fraud use cases.

提供机构：

亚马逊研究院

创建时间：

2022-08-31

搜集汇总

数据集介绍

构建方式

Fraud Dataset Benchmark (FDB) 是一个针对欺诈检测任务而构建的公开数据集集合。该数据集涵盖了从识别非面对面交易欺诈、检测机器人攻击、分类恶意 URL、评估贷款违约风险到内容审核等多种欺诈相关任务。FDB 的构建过程首先从多个数据源中收集了 9 个公开可用的数据集，这些数据集涵盖了信用卡欺诈、信用风险、机器人攻击和内容审核等常见欺诈问题。然后，FDB 使用 Python 库提供了一个统一的数据加载 API，并提供了标准化的训练和测试数据划分。

特点

FDB 数据集的特点包括：1) 类别不平衡：欺诈与合法人群的比例可能非常低（低至 0.0001）。2) 特征高基数：欺诈领域中的许多原始数据属性非常细致（例如 IP 地址、电话号码）。3) 问题的对抗性：欺诈者会适应其行为以欺骗模型，因此数据中的模式随时间变化。4) 样本不总是独立同分布（IID）：属性值和行为可能依赖于历史值。FDB 数据集涵盖了各种欺诈问题，并提供了 Python 库方便数据加载和使用。

使用方法

FDB 数据集的使用方法包括：1) 数据加载：使用 Python 库提供的 API 可以轻松加载 FDB 数据集。2) 数据预处理：FDB 数据集可能需要进行数据预处理，例如特征工程、数据增强等。3) 模型训练：可以使用各种机器学习算法和 AutoML 框架在 FDB 数据集上进行模型训练。4) 模型评估：可以使用各种性能指标对模型进行评估，例如 AUC-ROC。5) 应用示例：FDB 数据集可以用于特征工程、比较监督学习算法、标签噪声去除、类别不平衡处理和半监督学习等欺诈检测任务。

背景与挑战

背景概述

在计算机视觉、自然语言处理等领域，标准化的数据集和基准测试已成为推动创新的关键。然而，与其他研究领域相比，欺诈检测领域面临着独特的挑战，例如高类别不平衡、特征类型多样、欺诈模式频繁变化以及问题的对抗性。为了解决这些挑战，Grover等人于2023年9月发布了欺诈数据集基准（FDB），这是一个包含公开可用数据集的集合，专门用于欺诈检测。FDB涵盖了从识别欺诈卡交易、检测机器人攻击、分类恶意URL到评估贷款违约风险以及内容审核等各种欺诈相关任务。FDB提供了一个基于Python的库，该库提供了一致的API用于数据加载，并具有标准化的训练和测试分割。FDB的发布旨在为欺诈检测领域的研究人员和从业者提供一个共同的平台，以开发针对各种欺诈用例的鲁棒且定制的机器学习技术。

当前挑战

FDB数据集面临的挑战包括： 1) 高类别不平衡：欺诈与合法人口的比例可能非常低（低至0.0001）。 2) 特征高基数：许多欺诈领域的原始数据属性非常细粒度（例如IP地址、电话号码）。 3) 问题的对抗性：欺诈者会改变他们的行为以欺骗模型，因此数据中的模式随时间而变化。因此，性能评估应在“时间之外”进行，以准确衡量模型在实际工作中的能力。 4) 样本并非总是独立同分布（IID）：属性值和行为可能依赖于历史值。 5) 数据集缺乏个人身份信息（PII）数据，例如电子邮件地址或支付工具信息。 6) 数据集可能缺少某些重要特征，例如时间戳或用户ID，这些特征对于揭示数据中的时间模式和实体关系非常有用。 7) 尽管这些数据集对于研究和开发欺诈检测算法非常有用，但它们不包含有关真实欺诈的任何信息。

常用场景

经典使用场景

FDB 数据集广泛应用于欺诈检测领域，涵盖多种欺诈相关任务，如识别欺诈性无卡交易、检测机器人攻击、分类恶意网址、估计贷款违约风险以及内容审核等。数据集提供标准化 API，方便数据加载和训练测试分割，支持特征工程、监督学习算法比较、标签噪声去除、类不平衡处理以及半监督学习等应用。FDB 数据集为研究人员和实践者提供了一个共同的平台，用于开发针对各种欺诈使用场景的鲁棒且定制的机器学习技术。

衍生相关工作

FDB 数据集的建立衍生了许多相关的研究工作。例如，一些研究人员使用 FDB 数据集来开发新的特征工程技术，以更好地捕捉欺诈行为的模式。此外，一些研究人员使用 FDB 数据集来评估和比较不同的监督学习算法和自动机器学习框架，以找到最适合欺诈检测问题的算法。FDB 数据集还促进了标签噪声去除、类不平衡处理和半监督学习等技术在欺诈检测领域的应用。FDB 数据集的建立为欺诈检测研究提供了重要的数据基础，促进了该领域的研究进展，并为打击欺诈行为提供了重要的技术支持。

数据集最近研究