V4FinBench
收藏arXiv2026-05-13 更新2026-05-13 收录
下载链接:
https://www.kaggle.com/datasets/sebastiantomczak10/v4-group-corporate-bankruptcy/data
下载链接
链接失效反馈官方服务:
资源简介:
V4FinBench是由弗罗茨瓦夫理工大学等机构联合创建的一个大型公开企业财务困境预测基准数据集,旨在为表格基础模型和大型语言模型的微调提供支持。该数据集包含超过110万条公司-年度观测记录,覆盖维谢格拉德集团四国(捷克、匈牙利、波兰、斯洛伐克)2006年至2021年的20.39万家独特公司,每条记录包含131个财务与非财务特征,并基于偿付能力、盈利能力和流动性的复合恶化标准构建了六个不同预测时间跨度的分类任务。数据来源于EMIS服务的公司财务报表,经过特征工程和复合标签定义处理,其核心应用领域是企业破产预测,专门用于在现实世界严重的类别不平衡和多时间跨度预测需求下,评估和比较各类机器学习方法的性能。
V4FinBench is a large-scale open benchmark dataset for corporate financial distress prediction, co-developed by Wrocław University of Science and Technology and other institutions. It is designed to support fine-tuning of tabular foundation models and large language models (LLMs). The dataset contains over 1.1 million firm-year observations, covering 203,900 unique firms across the four Visegrád Group countries (Czechia, Hungary, Poland, and Slovakia) from 2006 to 2021. Each record includes 131 financial and non-financial features, and six classification tasks with different prediction time horizons are constructed based on a composite deterioration criterion covering solvency, profitability, and liquidity. Sourced from corporate financial statements via the EMIS service, the dataset has undergone feature engineering and composite label definition processing. Its core application domain is corporate bankruptcy prediction, and it is specifically developed to evaluate and compare the performance of various machine learning methods under real-world conditions with severe class imbalance and multi-time-horizon prediction demands.
提供机构:
弗罗茨瓦夫理工大学·人工智能系; Tooploox; Opera
创建时间:
2026-05-12
原始信息汇总
数据集概述:V4FinBench
1. 基本信息
- 数据集名称: V4FinBench
- 简介: 一个用于企业破产预测的大规模数据集。
- 数据来源: 新兴市场信息服务(EMIS)数据库(www.emis.com)。
- 覆盖范围: 涵盖维谢格拉德集团国家(波兰、匈牙利、斯洛伐克、捷克共和国)的六个行业(制造业、建筑业、零售和批发贸易、交通运输、能源),时间跨度为2006年至2021年。
- 规模: 包含203,900家独立公司和1,106,879个公司-年度观测值,其中国家分布为:波兰(628,499)、匈牙利(358,486)、斯洛伐克(62,141)、捷克共和国(57,753)。
- 许可协议: Attribution 4.0 International (CC BY 4.0)
- 更新频率: 永不更新
- 可用性评分: 9.41
2. 数据内容
- 特征数量: 131个财务特征(X1-X131),此外还有14个公司标识与元数据列(X1-X14),共计145个列。
- 特征类别:
- 流动性比率: 包括流动比率、速动比率、现金比率、营运资本等指标。
- 盈利能力比率: 包括ROA、ROE、EBIT/EBITDA利润率等。
- 债务覆盖率: 包括利息覆盖倍数、净债务/EBITDA等。
- 活动/周转率: 包括应收账款周转天数、存货周转天数、经营周期和现金转换周期等。
- 杠杆/偿付能力比率: 包括权益比率、资产负债率、破产标志等。
- 规模衡量指标: 取对数后的资产和经GDP调整后的收入。
- 同比增长率: 包括收入、资产、利润、存货等项目的同比增长。
- 行业基准指标: 每个财务比率相对于行业中位数的偏差,捕捉公司与同行的偏离程度。
- 其他元数据: 包括国家、年份、法律形式、行业代码、NAICS行业分类。
3. 数据文件
数据集包含8个文件(总大小5.01 GB):
column_descriptions.md(13.05 kB): 描述所有列(分组、公式和摘要统计)的配套文件。company_years.parquet: 包含所有特征,不含标签的基础文件。company_years_h1.parquet至company_years_h6.parquet: 六个带有标签的任务文件,分别对应不同的预测时间范围。
4. 破产定义与标签
- 破产定义: 当一家公司在最终报告年份同时满足以下三个条件时,被标记为财务困境: (1) 权益/总资产 < 0, (2) EBITDA/总资产 < 0, (3) 流动资产/短期负债 ≤ 0.6。
- 预测时间范围: 文件名中的
hN表示标签放置在破产年份之前的N-1年。- h1: 同期(同年)检测。
- h6: 五年期前瞻预测(最远期预警)。
- 类别不平衡: 随预测时间范围增加而加剧。
5. 评估协议
- 评估方法: 采用5折分组交叉验证方案。公司按国家随机打乱并分配到各折中,确保同一家公司的所有观测值始终在同一折内,避免公司内部数据泄露。每次交叉验证使用3折训练、1折验证、1折测试(循环交替),大致形成60/20/20的拆分比例。
6. 数据集标签
- 标签:
Classification(分类)、Tabular(表格)、Finance(金融)、Europe(欧洲)
搜集汇总
数据集介绍

构建方式
V4FinBench 的构建源于对维谢格拉德集团四国(捷克、匈牙利、波兰、斯洛伐克)2006至2021年间企业财务数据的系统整合。原始数据取自EMIS数据库,涵盖203,900家独特企业,共计1,106,879条公司年度观测记录。研究团队从原始会计科目出发,计算并衍生出131项涵盖流动性、盈利能力、偿债能力、周转效率、增长比率及行业相对指标等维度的财务与非财务特征。标签的定义基于一个复合财务困境标准,要求企业在偿付能力、盈利能力和流动性三个维度同时呈现恶化迹象,以此精准识别处于严重财务困境的公司。为支持多时间跨度预测,数据集构建了从当期至五年后的六个二分类预测任务,通过逐步移除困境企业临近违约年份的数据,生成不同前向预测时间窗口的标签。最终,所有数据、标签及其构造代码以标准化格式公开释出。
特点
V4FinBench 的核心特点在于其大规模、多时间跨度与高度不平衡性的有机结合。作为目前公开可获取的企业困境预测基准之一,该数据集包含超过百万条公司年度样本,远超同类免费资源数万条的规模。其六种预测时间窗口的设计(从当期到五年后)为系统评估模型在不同预测距离下的性能提供了统一框架。由于真实世界中困境事件极为罕见,数据集中正样本比例仅为0.19%至0.36%,这一极端类别不平衡特性高度还原了实际金融风险场景的挑战性。此外,释出的固定五折交叉验证划分、国家层面对公司进行区分以确保泛化性的分组策略,以及基于F1分数在验证集上进行阈值优化的标准化评估协议,共同构成了该基准研究的可复现性基石。
使用方法
V4FinBench 的使用遵循一套严格的标准化流程以确保评估结果的可靠与可比较。研究者首先需从Kaggle平台获取数据集、标签及预先分配的折次索引。在每轮交叉验证中,所有观测值依据所属公司被整体划入同一折,同时保持各国样本的比例。训练集用于模型拟合,验证集用于超参数择优并通过校准决策阈值最大化F1分数,最终在测试集上报告F1和ROC-AUC等核心指标。对于表格基础模型TabPFN,论文推荐采用原型欠采样策略构建上下文,以应对极端不平衡;对于大型语言模型如Llama-3-8B,则需将公司年度记录序列化为指令式文本,并通过QLoRA进行微调。数据集释出的代码仓库与Hugging Face检查点进一步降低了复现的门槛,为方法对比提供了可靠的起点。
背景与挑战
背景概述
V4FinBench是由波兰弗罗茨瓦夫理工大学人工智能系联合Tooploox及Opera的研究团队于2026年发布的大规模企业财务困境预测基准数据集。该数据集旨在填补公开可用的企业破产预测资源稀缺且规模不足的空白,核心研究问题在于如何在高度的类别不平衡与多时间跨度预测需求下,评估表格基础模型、大型语言模型以及标准机器学习方法的性能。数据集涵盖2006年至2021年间维谢格拉德集团四国逾百万条公司-年度观测记录,包含131项财务与非财务特征,并基于偿付能力、盈利能力和流动性的复合恶化标准定义困境标签。作为首个支持基础模型微调的大型公开财务困境基准,V4FinBench为金融预测领域提供了可复现、跨区域迁移的评估平台,显著推动了相关研究方向的发展。
当前挑战
V4FinBench所解决的领域问题核心在于企业破产预测本身固有的严峻挑战:真实世界中破产事件极为罕见,正样本比例仅为0.19%至0.36%,导致严重的类别不平衡;同时预测需求横跨从当年到五年后的多个时间跨度,不同前瞻窗口下模型表现差异显著。在基准构建过程中,研究团队面临多重挑战:原始EMIS财务数据需经过复杂的清洗与衍生指标计算,并须确保跨国家、跨年份数据的一致性与可比性;复合困境标签的定义需在严格性与普适性之间取得平衡,以精准识别真正陷入财务困境的企业而非单一维度弱化的公司;此外,为支持基础模型评估,数据集必须达到百万级规模,同时提供完整的交叉验证划分、标准化预处理流程以及公开可复现的评价协议,这在同类工作中尚属首次。
常用场景
经典使用场景
V4FinBench作为企业破产预测领域的里程碑式基准数据集,为评估各类预测方法在真实财务困境场景下的表现提供了标准化的测试平台。该数据集的核心应用在于支持对传统表格方法、表格基础模型和大型语言模型进行公平且可复现的比较。研究者利用其包含的六个预测时间窗口(从当期到五年后)和极端类别不平衡特性,系统性地评估模型在不同预警提前期下的泛化能力与鲁棒性,尤其适用于检验不平衡学习策略、跨域迁移能力以及多时间尺度的动态预测性能。
解决学术问题
该数据集有效解决了企业破产预测领域中长期存在的学术困境:大规模公开基准的缺失严重制约了现代机器学习方法,尤其是需要海量数据进行微调的基础模型的可复现评估与研究进展。V4FinBench提供了超过百万条公司-年度观测记录,结合复合财务困境标准(同时满足偿付能力、盈利能力和流动性恶化条件),使研究者能够深入探究极端类别不平衡下的模型行为差异、不同预警时效对预测性能的影响,以及跨经济体迁移学习中的可泛化金融信号捕捉问题,为理论验证和算法迭代提供了坚实的数据基础。
衍生相关工作
V4FinBench的发布催生了一系列富有影响力的衍生研究与经典工作。研究者围绕该基准深入探索了不平衡上下文构建策略对表格基础模型TabPFN性能的显著影响,提出了原型欠采样方法以保留多数类样本的结构信息,显著提升了长周期预测的F1分数和ROC-AUC。同时,数据集被用于评估大型语言模型在结构化金融数据上的微调效果,发现了Llama-3-8B在序列化记录预测任务中与传统梯度提升方法之间的性能差距。更为重要的是,基于V4FinBench微调的TabPFN模型在美国破产数据集上展现出跨域迁移能力,为构建通用型财务困境预测模型开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成



