Bankruptcy prediction dataset for american companies in the stock market

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/sowide/bankruptcy_dataset

下载链接

链接失效反馈

资源简介：

我们提供了一个与美国股票市场上市公司相关的破产预测数据集（1999-2018年）。该数据集收集了8262家不同公司的会计数据，根据美国证券交易委员会的规定，将公司标记为破产或存活。数据集无缺失值，包含78682个公司年度观察值，分为训练集、验证集和测试集。

We present a bankruptcy prediction dataset related to publicly traded companies in the U.S. stock market (1999-2018). This dataset encompasses accounting data from 8,262 distinct companies, with each company labeled as either bankrupt or solvent in accordance with the regulations of the U.S. Securities and Exchange Commission. The dataset is devoid of missing values and comprises 78,682 company-year observations, which are partitioned into training, validation, and test sets.

创建时间：

2022-07-26

原始信息汇总

数据集概述

数据集名称

破产预测数据集：美国股市上市公司相关数据集（1999-2018）

数据集描述

数据来源：美国股市（纽约证券交易所和纳斯达克）的上市公司。
数据收集时间：1999年至2018年。
公司数量：共收集了8262家不同公司的会计数据。
破产定义：
- 公司管理层根据破产法第11章申请重组，管理层继续日常运营，但重大业务决策需经破产法院批准。
- 公司管理层根据破产法第7章申请破产，公司停止所有运营并完全退出市场。
数据标记：事件发生前一年的财务年度标记为“破产”（1），否则标记为“存活”（0）。
数据完整性：数据集无缺失值或合成及填充的附加值。
数据集划分：
- 训练集：1999年至2011年的数据。
- 验证集：2012年至2014年的数据。
- 测试集：2015年至2018年的数据。

数据集使用

非匿名版本：可应要求提供给认可的学术机构进行科学研究（非学生最终项目使用）。

引用信息

引用文献：Machine Learning for Bankruptcy Prediction in the American Stock Market: Dataset and Benchmarks - Future Internet MDPI 2022

AI搜集汇总

数据集介绍

构建方式

该数据集聚焦于美国股票市场中公司的破产预测，涵盖了1999年至2018年间的8262家公司的财务数据。数据集的构建基于美国证券交易委员会（SEC）对破产的定义，即公司管理层提交破产法第11章或第7章申请。数据集通过标记公司在破产前一年的财务数据为‘破产’（1），其余为‘存活’（0），确保了数据的准确性和一致性。此外，数据集经过严格的清洗，确保无缺失值或人工填充数据，最终形成包含78682个公司年度观测值的数据集，并按时间序列划分为训练集、验证集和测试集，以支持模型的训练与评估。

特点

此数据集的显著特点在于其时间序列的完整性和财务数据的精确性。数据集不仅涵盖了广泛的时间跨度（1999-2018），还包含了8262家不同公司的详细财务信息，确保了样本的多样性和代表性。此外，数据集的标签明确，基于公司破产的实际法律程序，使得预测模型的训练更加可靠。数据集的无缺失值特性进一步增强了其分析价值，确保了模型在处理真实世界数据时的稳健性。

使用方法

该数据集适用于开发和验证破产预测模型，特别适合于时间序列分析和机器学习算法的应用。使用者可以利用1999年至2011年的数据进行模型训练，2012年至2014年的数据进行模型验证和比较，而2015年至2018年的数据则用于测试模型的实际预测能力。数据集的结构清晰，便于分割和应用，支持多种机器学习框架的实现。使用时需注意数据集的非匿名化版本因版权限制不可获取，且应遵循相关引用规范以确保学术诚信。

背景与挑战

背景概述

在金融市场的复杂环境中，企业破产预测一直是学术界和业界关注的焦点。Bankruptcy prediction dataset for american companies in the stock market数据集由Pellegrino等人于2024年创建，专注于美国股票市场中的公司破产预测。该数据集涵盖了1999年至2018年间8262家公司的会计数据，通过严格的标记规则，将破产事件前一年的数据标记为‘Bankruptcy’（1），其余标记为‘Alive’（0）。这一数据集的构建旨在为破产预测模型提供高质量的训练和测试数据，推动金融风险管理领域的研究进展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，数据收集涉及大量公司的会计信息，确保数据的准确性和完整性是一项艰巨任务。其次，破产事件的定义和标记需要遵循严格的法律和市场规则，确保标签的准确性。此外，数据集的划分需考虑时间序列的特性，确保模型在真实未见数据上的预测能力。这些挑战不仅提升了数据集的质量，也为后续研究提供了坚实的基础。

常用场景

经典使用场景

在金融风险管理领域，破产预测数据集为美国上市公司提供了宝贵的资源。该数据集通过整合1999至2018年间8262家公司的会计数据，构建了一个包含78682个公司年度观测值的详尽数据库。其经典使用场景主要体现在利用这些数据训练和验证机器学习模型，以预测公司未来的破产风险。通过将数据划分为训练集、验证集和测试集，研究者能够评估模型在不同时间段内的预测性能，从而为投资者和监管机构提供决策支持。

实际应用

在实际应用中，该数据集为金融机构和投资者提供了强大的工具，用以评估和监控上市公司的财务健康状况。通过应用基于该数据集训练的模型，投资者可以更早地识别潜在的破产风险，从而调整投资策略，降低损失。同时，监管机构可以利用这些模型来加强市场监管，确保金融系统的稳定性。此外，企业管理层也可以借助这些预测工具，提前采取措施改善财务状况，避免破产的发生。

衍生相关工作

基于该数据集，已衍生出多项经典工作，特别是在机器学习和深度学习领域。例如，Pellegrino等人（2024）提出了一种多头部LSTM架构，专门用于处理时间序列会计数据，以提高破产预测的准确性。此外，该数据集还为其他研究者提供了基准，用以比较不同模型的性能。这些工作不仅丰富了破产预测的研究方法，还为未来的研究提供了宝贵的参考和启示。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集