Berka Dataset

github2021-11-28 更新2024-05-31 收录

下载链接：

https://github.com/tfranza/ibotta_fraud

下载链接

链接失效反馈

官方服务：

资源简介：

Berka数据集是一个包含5300名客户和约100万笔交易的匿名财务细节集合，来源于捷克银行。数据集分为静态和动态信息，静态信息包括客户身份和居住地区的人口统计数据，动态信息包括交易历史、发出的订单、活跃和过去的贷款以及信用卡信息。

The Berka dataset is an anonymized collection of financial details encompassing 5,300 clients and approximately 1 million transactions, sourced from a Czech bank. The dataset is segmented into static and dynamic information: static information includes client identities and demographic data of their residential areas, while dynamic information comprises transaction histories, issued orders, active and past loans, as well as credit card information.

创建时间：

2021-07-20

原始信息汇总

数据集概述

数据集名称

Berka Dataset

数据集描述

来源：该数据集包含来自一家捷克银行的匿名财务详细信息。
规模：涉及5,300名客户和约1,000,000笔交易。
数据结构：数据存储在多个专用表中，包括静态和动态信息。

静态信息

客户身份：性别、出生日期、是否与其他人共享账户。
居住地区和人口统计：地区名称、区域、居民数量、市镇数量、城市数量、平均工资、失业率、企业家比例、犯罪率。

动态信息

交易历史：账户ID、交易日期、类型、操作种类、金额、交易后余额、原因和银行/账户合作伙伴。
发出的订单：账户ID、收款银行、收款账户、金额、原因。
活跃和过去的贷款：账户ID、贷款总额、贷款期限、每月还款额、贷款状态。
信用卡：卡类型、发卡日期。

数据使用

机器学习模型训练：使用‘trans’表中的数据，该表包含所有客户的银行交易信息。

伦理考虑

数据匿名化：确保所有个人身份信息已被移除，以保护客户隐私。
潜在偏见：尽管数据中包含一些个人信息和地区统计数据，但这些信息未用于模型训练，且已移除可能导致偏见的银行字段。

数据集应用

目的：用于构建一个机器学习模型，以监测和标记异常交易行为，帮助Ibotta公司提高欺诈检测的效率。
功能：允许调查人员访问账户详细信息、欺诈行为风险分析及其他统计图表，以辅助欺诈调查。

搜集汇总

数据集介绍

构建方式

Berka数据集源自捷克某银行的匿名化金融数据，涵盖了5,300名客户及约1,000,000笔交易记录。数据以多张表格形式存储，分别包含静态和动态信息。静态信息涉及客户的身份特征（如性别、出生日期、账户共享情况）及其居住地区的详细信息（如地区名称、人口数量、平均工资、失业率等）。动态信息则包括客户的交易历史、订单记录、贷款详情及信用卡信息。所有数据均经过严格匿名化处理，确保个人身份信息无法被追溯。

特点

Berka数据集的特点在于其丰富的数据维度和高度的匿名化处理。数据集不仅包含了客户的交易行为记录，还整合了客户所在地区的社会经济指标，为研究金融行为与地区经济环境的关系提供了可能。此外，数据集的动态信息部分详细记录了每笔交易的时间、金额、操作类型等，为分析客户行为模式及异常检测提供了坚实的基础。数据的匿名化处理确保了隐私保护，同时保留了足够的信息量以支持机器学习模型的训练。

使用方法

Berka数据集的使用方法主要围绕金融行为分析与异常检测展开。用户可以通过数据集中的交易记录表（‘trans’表）进行模型训练，结合客户的静态信息与动态行为特征，构建欺诈检测模型。数据集还支持对特定账户的详细分析，用户可通过可视化工具查看账户的交易行为，并下载相关数据以进行进一步研究。此外，用户可通过手动标记异常交易来优化模型的性能，使其在未来的检测中更加精准。

背景与挑战

背景概述

Berka数据集源自捷克一家银行的匿名化金融数据，涵盖了约5,300名客户和近1,000,000笔交易记录。该数据集由多个表格组成，分别存储了客户的静态信息（如性别、出生日期、居住地区及人口统计信息）和动态信息（如交易历史、贷款记录、信用卡信息等）。该数据集的核心研究问题在于通过分析客户的金融行为，识别潜在的欺诈活动，从而提升金融机构的风险管理能力。Berka数据集自发布以来，已成为金融领域研究的重要资源，尤其在异常检测和客户行为分析方面具有广泛的应用价值。

当前挑战

Berka数据集在解决金融欺诈检测问题时面临多重挑战。首先，金融交易数据的复杂性和多样性使得异常行为的识别变得极为困难，尤其是在面对高度动态的交易模式时。其次，数据集中包含的静态信息（如客户性别、居住地区等）可能引入潜在的偏见，影响模型的公平性和准确性。此外，数据匿名化处理虽然保护了客户隐私，但也可能导致部分关键信息的丢失，进一步增加了模型训练的难度。在构建过程中，研究人员还需应对数据缺失、不平衡分布等问题，这些都对模型的鲁棒性和泛化能力提出了更高的要求。

常用场景

经典使用场景

Berka数据集在金融领域的经典使用场景主要集中在对客户交易行为的分析和异常检测。通过对超过100万笔交易数据的深入挖掘，研究人员能够构建复杂的模型来识别潜在的欺诈行为。这种数据集的使用不仅限于学术研究，还被广泛应用于银行和金融机构的风险管理系统中，以增强对异常交易的监控和预警能力。

解决学术问题

Berka数据集解决了金融领域中的多个关键学术问题，尤其是在客户行为分析和欺诈检测方面。通过提供详细的客户交易历史和静态信息，该数据集使得研究人员能够开发出更为精确的机器学习模型，用于预测和识别异常交易行为。这不仅提高了金融机构的风险管理能力，还为相关领域的学术研究提供了丰富的数据支持。

衍生相关工作

基于Berka数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种机器学习模型，用于预测客户的信用风险和欺诈行为。这些模型不仅提高了金融机构的风险管理能力，还为相关领域的学术研究提供了新的视角和方法。此外，该数据集还被用于开发自动化工具，帮助调查人员快速识别和标记异常交易，提高工作效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集