EDA-US-Bankruptcy-Prediction

Hugging Face2025-11-18 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/reefzehavi/EDA-US-Bankruptcy-Prediction

下载链接

链接失效反馈

官方服务：

资源简介：

美国公司破产预测数据集，包含78,682条公司/年份记录和21列数据。数据集特征包括公司名称、年份、状态标签（目标变量）以及多种财务比率（X1至X18），如总资产（X2）、总负债（X3）和销售/总资产（X9）等。

创建时间：

2025-11-10

原始信息汇总

数据集概述

数据集基本信息

数据集名称: EDA - US Company Bankruptcy Prediction
来源: Kaggle - US Company Bankruptcy Prediction Dataset
文件名称: american_bankruptcy.csv
数据规模: 78,682条记录（公司/年份），21个列

数据特征

目标变量: status_label（公司状态标签）
主要特征:
- company_name（公司名称）
- year（年份）
- 18个财务比率（X1至X18）
- 关键财务指标：X2（总资产）、X3（总负债）、X9（销售额/总资产）

数据质量

缺失值: 无缺失值
重复值: 无重复行
异常值: 存在极端异常值，但未进行删除处理

数据集特点

类别不平衡: 存活公司（alive）占比约96%，破产公司（failed）占比约4%
财务指标分布: 大多数数据集中在底部，存在极端异常值

关键发现

负债与破产关系: 破产公司的总负债中位数显著高于存活公司
关键相关性指标:
- 负相关（-0.4）: X9（销售额/总资产）和X16与破产概率呈负相关
- 正相关（0.2）: X3（总负债）与破产概率呈正相关
资产与负债关系: 总资产与总负债之间存在强正相关性（0.8）
破产公司特征: 破产发生在各种规模的公司中，不受公司规模限制

搜集汇总

数据集介绍

构建方式

在金融风险预测研究领域，该数据集源自Kaggle平台的美国公司破产预测数据集，原始数据包含78,682条公司年度记录与21个特征维度。数据构建过程严格遵循金融分析规范，涵盖公司名称、年份记录以及18项关键财务比率指标，包括总资产、总负债和销售资产比等核心财务变量。数据采集阶段确保了原始数据的完整性，经过验证不存在缺失值与重复记录，为后续分析提供了可靠的数据基础。

特点

该数据集展现出显著的类别不平衡特性，存活公司与破产公司的比例达到96%与4%的悬殊对比，这真实反映了商业环境中企业生存的普遍规律。财务指标分布呈现典型的右偏特征，存在反映现实商业巨头的极端值，这些异常值被证实具有分析价值而非数据噪声。特征相关性分析揭示销售资产比与破产风险存在-0.4的负相关，而总负债则呈现0.2的正相关，这些发现与公司金融理论高度吻合。

使用方法

在使用该数据集进行破产预测建模时，研究者需特别关注类别不平衡问题的处理，建议采用过采样、欠采样或代价敏感学习等技术。数据分析过程中应保留极端值以保持现实商业场景的完整性，可通过可视化技术分离展示。特征工程应重点聚焦于总负债、销售资产比等关键指标，同时考虑资产与负债间0.8的高度相关性可能带来的多重共线性问题。模型验证阶段需采用精确率、召回率等综合指标评估模型性能。

背景与挑战

背景概述

企业破产预测作为金融风险管理的重要分支，其研究可追溯至20世纪中叶Altman提出的Z-score模型。EDA-US-Bankruptcy-Prediction数据集由Kaggle平台于2025年发布，收录了78,682条美国企业年度财务记录，涵盖21项关键财务指标。该数据集通过18个标准化财务比率（X1-X18）构建特征空间，旨在探索企业生存状态与财务健康度的内在关联，为信用风险评估和金融监管提供数据支撑。其核心价值在于通过机器学习方法建立动态预警机制，推动企业破产预测从传统统计模型向数据驱动范式转型。

当前挑战

该数据集面临的核心挑战在于目标变量的极端不平衡分布，破产企业样本仅占总体本的4%，导致模型易陷入多数类偏好陷阱。在特征工程层面，财务指标中存在的极端离群值反映了现实商业环境中企业规模的巨大差异，传统数据清洗方法可能损失关键风险信号。构建过程中需平衡数据完整性与分析有效性，既要保留反映行业生态的真实离群值，又需通过可视化技术实现多维特征关联分析。此外，财务比率间的多重共线性问题与时间维度缺失，亦对构建稳健预测模型形成制约。

常用场景

经典使用场景

在金融风险分析领域，该数据集常被用于构建企业破产预测模型。通过包含企业名称、年份及18项关键财务比率的结构化数据，研究者能够系统分析总资产、总负债及销售资产比等指标与破产状态的关联。其高度不平衡的样本分布（存活企业占比96%）为机器学习中的类别不平衡问题提供了典型研究场景，促使学者采用过采样或代价敏感学习等策略提升模型对少数类的识别能力。

实际应用

商业银行与信贷机构可将该数据集应用于贷前风险评估系统构建。通过训练梯度提升树等分类算法，机构能依据企业实时财务数据预测破产概率，优化信贷决策流程。投资分析领域则借助该数据集的负债资产散点图模式，识别处于财务困境的潜在投资标的，为风险定价与资产组合管理提供量化依据，最终提升金融市场资源配置效率。

衍生相关工作

基于该数据集的特性，学界衍生出多项经典研究。针对样本不平衡问题，有研究提出融合SMOTE过采样与集成学习的混合模型，显著提升破产企业召回率。另有工作聚焦财务比率的多模态融合，通过构建图神经网络捕捉企业间隐含关联。这些成果被拓展至跨国企业破产预测、行业特异性风险建模等领域，形成金融科技研究的重要分支。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集