South African Bank Risk Dataset

github2023-10-26 更新2024-05-31 收录

下载链接：

https://github.com/dsfsi/za-bank-risk

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于阅读、处理、标注和分类南非银行非结构化年度报告的初始管道，目的是识别金融风险。数据集包括从2009年到2019年的258份年度报告，通过提取文本、计数关键词和子字符串，以及验证结果来准备数据。

This dataset serves as an initial pipeline for reading, processing, annotating, and classifying unstructured annual reports from South African banks, aimed at identifying financial risks. It comprises 258 annual reports from 2009 to 2019, with data preparation involving text extraction, keyword and substring counting, and result validation.

创建时间：

2021-04-16

原始信息汇总

数据集概述

数据集名称

South African Bank Risk Dataset

数据集目的

该数据集用于读取、处理、标记和分类南非银行的非结构化年度报告，旨在识别金融风险。

数据收集方法

通过南非银行许可证注册表，从公司网站和在线门户下载年度报告。公司结构、交易实践和品牌化使得数据收集复杂。

数据描述

从2009年至2019年，共收集了258份年度报告，其中7份报告包含多个文档，每个文档被视为一个报告。

数据集组织结构

data
- interim
  - wordlists
    - 包含多个文本列表，用于提取语言特征。
  - 包含多个CSV文件，用于存储参考数据和输出数据。
- processed
  - 包含多个CSV文件，用于存储处理后的数据和模型预测结果。
- raw
  - Annual Reports
    - 包含从互联网下载的PDF格式年度报告。
notebooks
- 包含用于数据处理和模型训练的Python代码。

数据集链接

Zenodo Data Repository

作者

Lamont Theron
Vukosi Marivate

许可证

数据：CC 4.0 BY SA
代码：MIT License

搜集汇总

数据集介绍

构建方式

South African Bank Risk Dataset的构建过程始于从南非注册银行的官方网站和在线门户下载年度报告。由于公司结构、交易实践和品牌复杂性，数据收集面临挑战。数据集通过预处理步骤，将报告映射到公司和年份，并根据风险标记为正面或负面。数据处理包括文本提取、词频统计、词袋模型、词嵌入、特征缩放和主题分析。最终，通过多种分类器进行建模，并选择表现最佳的模型应用于预测场景。

使用方法

使用该数据集时，用户可以通过提供的Python代码在Google Colaboratory或本地Jupyter环境中运行。代码包括从PDF中提取文本、转换文档、按页面统计词频、进行探索性数据分析（EDA）以及应用分类器进行预测。用户还可以使用逻辑回归和支持向量机等模型进行风险预测，并通过LIME和特征选择进一步优化模型。数据集的使用方法详细记录在Jupyter笔记本中，便于用户复现和扩展研究。

背景与挑战

背景概述

南非银行风险数据集（South African Bank Risk Dataset）由Lamont Theron和Vukosi Marivate等人于近年创建，旨在通过分析南非银行的无结构年度报告来识别金融风险。该数据集借鉴了El-Haj等人开发的英国公司年度报告语料库（CFIE–FRSE）的研究方法，进一步扩展了金融文本分析的应用范围。数据集涵盖了2009年至2019年间南非银行的258份年度报告，涉及多家主要银行及其子公司。通过文本提取、词频统计、特征缩放和主题分析等技术，研究人员能够对报告中的风险相关语言进行建模和预测。该数据集为金融风险分析领域提供了宝贵的资源，推动了文本挖掘与金融研究的交叉应用。

当前挑战

南非银行风险数据集的构建面临多重挑战。首先，数据收集过程中，由于南非银行的公司结构复杂、品牌变更频繁，导致年度报告的获取和整理异常困难。例如，南非雅典银行（SABA）在被GroCapital Holdings收购后更名为Grobank，这增加了数据映射的复杂性。其次，文本预处理阶段需要将报告内容与公司和年份进行精确匹配，并标注风险相关的正负标签，这一过程依赖于复杂的自然语言处理技术。此外，尽管数据集借鉴了CFIE–FRSE工具进行验证，但南非金融环境的独特性使得模型泛化能力受到限制。最后，数据集中部分年度报告缺失，可能影响模型的全面性和准确性。这些挑战凸显了金融文本分析在跨区域应用中的技术难度。

常用场景

经典使用场景

South African Bank Risk Dataset 主要用于分析和识别南非银行的财务风险。该数据集通过处理和分析南非银行的无结构年度报告，利用自然语言处理技术提取关键信息，帮助研究人员和金融机构评估银行的财务健康状况。经典使用场景包括利用机器学习模型对年度报告进行分类，预测银行未来的财务风险。

解决学术问题

该数据集解决了金融领域中对银行财务风险进行自动化评估的学术问题。通过提供结构化的年度报告数据，研究人员可以开发更精确的风险预测模型，减少人工分析的时间和成本。此外，数据集还支持对银行财务报告的文本分析，帮助理解银行管理层对未来风险的看法和应对策略。

实际应用

在实际应用中，South African Bank Risk Dataset 被金融机构和监管机构广泛用于监控和评估银行的财务稳定性。通过分析年度报告中的风险相关词汇和语句，机构可以及时发现潜在的财务问题，采取预防措施。此外，该数据集还可用于开发智能金融工具，辅助投资决策和风险管理。

数据集最近研究