1999_Czech_financial_dataset_Teradata

github2023-12-16 更新2024-05-31 收录

下载链接：

https://github.com/dnoeth/1999_Czech_financial_dataset_Teradata

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1993年至1998年间捷克银行的实际交易记录，经过修改以适应Teradata数据库。数据集包括多种类型的交易记录，如账户、客户、交易等，并进行了日期和金额的调整以模拟更新的数据。

This dataset comprises actual transaction records from a Czech bank between 1993 and 1998, modified to fit the Teradata database. It includes various types of transaction records such as accounts, customers, and transactions, with adjustments made to dates and amounts to simulate updated data.

创建时间：

2019-03-08

原始信息汇总

1999_Czech_financial_dataset_Teradata

数据集描述

原始数据来源：1993至1998年捷克银行的实际交易数据，经过修改以适应Teradata数据库。
数据修改：
1. 每条记录的日期增加了20年，日期范围变为2003至2018年。
2. 金额（捷克克朗）除以10，使其与当前的美元或欧元金额相似。
3. 捷克语描述被翻译成英文缩写，例如VYBER KARTOU = credit card withdrawal = CCW。

数据集内容

文件及记录数量：
- fin_account.tsv：4500条记录，描述账户的静态特征。
- fin_client.tsv：5369条记录，描述客户特征。
- fin_disp.tsv：5369条记录，关联客户与账户。
- fin_order.tsv：6471条记录，描述支付订单特征。
- fin_trans.tsv：1056320条记录，描述账户上的单个交易。
- fin_loan.tsv：682条记录，描述为特定账户发放的贷款。
- fin_card.tsv：892条记录，描述发行给账户的信用卡。
- fin_district.tsv：77条记录，描述地区的社会经济特征。

数据格式

分隔符：所有文件均使用制表符分隔。

搜集汇总

数据集介绍

构建方式

1999_Czech_financial_dataset_Teradata数据集基于1993年至1998年间捷克银行的真实交易数据构建，经过修改以适应Teradata数据库的加载需求。为了使其数据更具现代感，数据集中的日期被增加了20年，金额（以捷克克朗为单位）被除以10，并且捷克语的描述被翻译为英语缩写。该数据集源自PKDD'99 Discovery Challenge，由Petr Berka和Marta Sochorova准备，包含多个描述账户、客户、交易等信息的表格文件。

使用方法

使用该数据集需要安装BTEQ工具，并确保加载用户具有目标数据库的`CREATE TABLE`权限。用户可以通过下载并解压提供的zip文件，修改安装脚本以匹配目标系统，然后通过命令行运行脚本完成数据加载。安装完成后，用户可以通过查询相关表格进行数据分析。若需重新安装，需按特定顺序删除表格以避免外键约束问题。

背景与挑战

背景概述

1999_Czech_financial_dataset_Teradata数据集源自1993年至1998年间捷克一家银行的真实交易数据，经过修改后适用于Teradata数据库加载。该数据集由Petr Berka和Marta Sochorova在1999年PKDD'99 Discovery Challenge中首次发布，旨在为金融数据挖掘和机器学习研究提供基础。数据集涵盖了账户、客户、支付订单、交易、贷款、信用卡等多个维度的信息，经过时间调整和金额转换，使其更符合现代金融数据的特征。该数据集在金融分析、客户行为预测、信用风险评估等领域具有重要研究价值，为学术界和工业界提供了丰富的实证研究素材。

当前挑战

1999_Czech_financial_dataset_Teradata数据集在解决金融领域问题时面临多重挑战。首先，数据的时间跨度较大，尽管经过调整，但仍需考虑历史数据与当前金融环境的差异。其次，数据量庞大且结构复杂，涉及多个关联表，对数据预处理和特征工程提出了较高要求。此外，数据中的捷克语描述被简化为英文缩写，可能导致信息丢失或误解。在构建过程中，研究人员还需应对数据清洗、格式转换以及Teradata数据库加载的技术难题，确保数据的完整性和一致性。这些挑战为金融数据挖掘和机器学习算法的开发与应用提供了重要的研究场景。

常用场景

经典使用场景

1999_Czech_financial_dataset_Teradata数据集广泛应用于金融领域的学术研究和实际应用中。该数据集包含了1993年至1998年间捷克银行的真实交易数据，经过修改后适用于Teradata数据库的加载。其经典使用场景包括银行客户行为分析、信用风险评估以及金融欺诈检测等。研究人员可以通过分析账户、客户、交易等多维度数据，深入挖掘金融市场的动态变化和客户行为模式。

解决学术问题

该数据集解决了金融领域中的多个关键学术问题。首先，它提供了丰富的交易数据，使得研究人员能够进行客户行为分析，揭示不同客户群体的金融活动特征。其次，数据集中的贷款和信用卡信息为信用风险评估提供了宝贵的数据支持，帮助研究者开发更精确的信用评分模型。此外，数据集还支持金融欺诈检测算法的开发，通过分析异常交易模式，提升金融机构的风险控制能力。

实际应用

在实际应用中，1999_Czech_financial_dataset_Teradata数据集被广泛用于银行和金融机构的业务优化。例如，银行可以利用该数据集进行客户细分，制定个性化的营销策略。同时，数据集中的交易数据可以用于实时监控和预警系统，帮助银行及时发现潜在的欺诈行为。此外，该数据集还为金融科技公司提供了基础数据，支持其开发智能投顾、信用评分等创新金融产品。

数据集最近研究