财务报表欺诈预测数据集

github2021-11-30 更新2024-05-31 收录

下载链接：

https://github.com/KaiPhan/FS_fraud_predict_ML

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2010年至2019年间未经过审计的财务报表数据，由FiinGroup提供，涵盖了1506家非金融类公司在HNX、HoSE和UpCOM交易所的数据，包括189项财务指标。经过数据清洗和处理后，数据集包含4883条记录和190个字段，其中189个字段为财务指标，1个字段用于标记是否存在欺诈行为。

This dataset encompasses unaudited financial statement data from 2010 to 2019, provided by FiinGroup, covering 1506 non-financial companies listed on the HNX, HoSE, and UpCOM exchanges, including 189 financial indicators. After data cleaning and processing, the dataset contains 4883 records and 190 fields, of which 189 fields are financial indicators and 1 field is used to flag the presence of fraudulent activities.

创建时间：

2021-11-21

原始信息汇总

数据集概述

数据集目的

本数据集旨在提供一个更有效的工具来预测财务报表欺诈的可能性，指导审计高风险欺诈项目的财务报表，以增加独立审计师工作的有效性和效率。此外，投资者和监管机构也可以使用此工具重新评估经过审计的财务报表，以做出适当的决策。

数据集内容

数据集包含从2010年到2019年的未经审计的财务报表，由FiinGroup提供。原始数据集包括1506家非金融公司在HNX、HoSE和UpCOM交易所的189个财务指标。经过处理后，数据集包含4883行和190列，包括189个财务指标和1个标签列（欺诈或非欺诈）。一个公司被标记为欺诈如果其Z-Score ≤ 5.85且M-Score > -2.22。最终，数据集中有858份标记为欺诈的财务报表和4025份非欺诈报表。

数据集使用的技术和工具

本项目使用的技术和工具包括：

编程环境：Miniconda创建的虚拟环境，Python版本为3.7。
主要库：numpy, pandas, scikit-learn, xgboost, lightgbm, shap。

通过执行pip install -r requirements.txt来安装所需的库。

搜集汇总

数据集介绍

构建方式

财务报表欺诈预测数据集的构建基于越南市场2010年至2019年间的未审计财务报表，数据来源于FiinGroup。数据集涵盖了1506家非金融公司，包含189个财务指标。在数据处理阶段，研究者剔除了缺失值或无法计算Beneish M-Score的记录，最终数据集包含4883条记录和190列，其中858条记录被标记为欺诈，4025条为非欺诈。欺诈判定标准为Z-Score ≤ 5.85且M-Score > -2.22。

特点

该数据集的特点在于其广泛覆盖了越南证券市场的非金融公司，提供了丰富的财务指标，能够有效支持财务报表欺诈的预测研究。数据集的标签基于严格的财务分析标准，确保了数据的可靠性和实用性。此外，数据集的规模适中，既保证了模型的训练效果，又避免了过大的计算负担。

使用方法

使用该数据集时，首先需配置Python 3.7环境，并安装所需的库，如numpy、pandas、scikit-learn等。数据集可用于训练多种机器学习模型，如K-Nearest Neighbors、Decision Tree、Random Forest等，以预测财务报表欺诈。通过SHAP库，研究者还可以解释模型的预测结果，增强模型的可解释性。

背景与挑战

背景概述

财务报表欺诈预测数据集由FiinGroup提供，涵盖了2010年至2019年间越南股市中1506家非金融公司的未审计财务报表。该数据集包含189个财务指标，旨在通过机器学习模型预测财务报表欺诈行为。研究团队通过剔除缺失值和无法计算Beneish M-Score的记录，最终得到4883条数据，其中858条被标记为欺诈，4025条为非欺诈。该数据集的创建旨在为审计师、投资者和监管机构提供更有效的工具，以识别和预防财务报表欺诈，从而提升市场透明度和投资者信心。

当前挑战

财务报表欺诈预测数据集面临的主要挑战包括数据不平衡问题，欺诈案例仅占总数据集的17.5%，这可能导致模型在训练过程中偏向于非欺诈类别。此外，财务数据的复杂性和高维度特征增加了模型构建的难度，尤其是在解释模型预测结果时。数据预处理阶段，缺失值和异常值的处理也对数据质量提出了较高要求。构建过程中，研究人员还需应对不同财务指标之间的多重共线性问题，以及如何有效结合多种机器学习算法以提高预测精度和模型的可解释性。

常用场景

经典使用场景

财务报表欺诈预测数据集在金融领域中被广泛应用于构建和验证机器学习模型，以预测企业财务报表中的欺诈行为。该数据集通过整合历史财务数据，结合多种财务指标，如Z-Score和M-Score，帮助研究人员和从业者识别潜在的财务欺诈风险。特别是在越南证券市场，该数据集被用于开发可解释的集成模型，以增强审计师和投资者的决策能力。

解决学术问题

该数据集解决了财务欺诈检测中的关键学术问题，尤其是在如何有效识别和预测财务报表中的欺诈行为方面。通过提供大量未审计的财务数据，研究人员能够利用机器学习算法，如XGBoost和LightGBM，构建高精度的预测模型。这不仅提升了欺诈检测的准确性，还为学术界提供了丰富的研究素材，推动了财务透明度和审计效率的提升。

衍生相关工作

基于该数据集，衍生了许多经典的研究工作，特别是在财务欺诈检测和机器学习模型解释性方面。例如，研究人员开发了基于SHAP值的模型解释方法，帮助理解模型预测结果的可信度。此外，该数据集还推动了集成学习模型在财务领域的应用，如结合多种机器学习算法（如随机森林、XGBoost等）来提高预测精度。这些工作不仅丰富了财务欺诈检测的研究方法，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成