five

ECL|财务分析数据集|破产预测数据集

收藏
arXiv2024-01-23 更新2024-06-21 收录
财务分析
破产预测
下载链接:
https://github.com/henriarnoUG/ECL
下载链接
链接失效反馈
资源简介:
ECL数据集是由根特大学创建的一个多模态数据集,包含来自企业10K文件的文本和数值数据,以及相关的二元破产标签。该数据集由170,139份10K文件组成,这些文件来自18,582家不同的公司,平均每家公司有9.16年的数据。数据集的创建过程涉及从EDGAR、CompuStat和LoPucki Bankruptcy Research Database三个现有数据源中收集数据,并通过特定的标签策略进行标记。ECL数据集主要用于破产预测研究,旨在通过分析公司的财务和业务状况,预测其未来一年的破产风险。
提供机构:
根特大学
创建时间:
2024-01-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
ECL数据集的构建始于收集美国证券交易委员会(SEC)网站上的10K报告文本数据,这些数据通过EDGAR-crawler工具从1993年开始收集。随后,将文本数据与CompuStat数据库中的财务数据进行匹配,确保两者属于同一公司且财政年度结束日期相近。最终,使用LoPucki破产研究数据库(BRD)为数据集提供破产标签,从而创建了一个包含文本和数值数据的多模态数据集。
使用方法
使用ECL数据集进行破产预测时,首先需要了解数据集的结构和标签分配策略。数据集中的10K报告包含文本和数值数据,可用于训练和评估不同的预测模型。研究人员可以单独使用文本或数值数据,或者将两者结合起来,以构建和测试破产预测模型。数据集的类别不平衡需要通过过采样或其他技术来解决,以确保模型的性能不受影响。此外,ECL数据集还提供了使用大型语言模型(LLM)提取文本摘要的示例,这些摘要可以用于改进文本模型的表现。
背景与挑战
背景概述
在金融市场,企业破产预测对于投资者、债权人以及其他利益相关者而言至关重要。ECL数据集的创建填补了这一领域的重要空白,为破产预测研究提供了新的视角。ECL数据集由Ghent大学的研究团队开发,它整合了来自企业10K报告的文本和数值数据,并附有破产标签。该数据集的独特之处在于它结合了三个现有数据源:EDGARcorpus、CompuStat和LoPucki破产研究数据库。ECL数据集为破产预测模型的研究提供了一个强大的工具,有助于理解不同数据模态在预测企业破产中的互补作用,并为未来的研究开辟了新的途径。
当前挑战
ECL数据集的创建和应用面临多方面的挑战。首先,破产预测领域的问题在于如何精确预测企业破产的发生和时间,由于外部因素和复杂的财务动态,这一任务具有挑战性。其次,ECL数据集的构建过程中,研究团队面临了数据整合和标签分配的挑战,特别是在处理文本数据和数值数据时如何保持信息的一致性和准确性。此外,由于破产案例在数据集中占比较低,导致数据不平衡,这在模型训练和评估中是一个需要特别注意的问题。最后,尽管大型语言模型(LLMs)在文本摘要方面表现出潜力,但在零样本破产预测任务中表现不佳,这表明LLMs在处理特定领域的预测任务时仍需进一步优化和调整。
常用场景
经典使用场景
ECL数据集在学术研究中被广泛用于破产预测,特别是通过分析公司提交的10K报告中的文本和数值数据。该数据集的独特之处在于它结合了文本信息(如管理层讨论和分析)和财务数据(如资产负债表、利润表和现金流量表),为研究者提供了一个全面的视角来评估公司的财务健康状况。ECL数据集的经典使用场景包括训练和评估破产预测模型,这些模型可以基于文本信息或财务数据单独工作,也可以结合两种数据类型以获得更准确的结果。
解决学术问题
ECL数据集解决了学术研究中几个关键的破产预测问题。首先,它提供了一个基准数据集,使得不同研究之间的模型性能比较成为可能。其次,ECL数据集揭示了文本和数值数据在破产预测中的互补性,表明结合这两种数据类型可以提高预测准确性。此外,ECL数据集还强调了当前破产预测模型的局限性,即它们无法区分即将破产的公司和那些财务状况不佳但在一年内不会破产的公司,这为未来研究提出了新的方向,即使用更精细的标签来建模公司的财务健康状况。
实际应用
ECL数据集的实际应用场景包括但不限于公司财务健康状况的自动化筛查、投资决策支持以及风险管理。通过分析10K报告中的文本和数值数据,ECL数据集可以帮助金融机构和投资者识别潜在的风险,从而做出更明智的投资决策。此外,ECL数据集还可以用于开发更精确的破产预测模型,这些模型可以应用于各种实际场景,如信贷风险评估、保险定价和监管合规。
数据集最近研究
最新研究方向
基于文本和数值数据的破产预测研究
相关研究论文
  • 1
    From Numbers to Words: Multi-Modal Bankruptcy Prediction Using the ECL Dataset根特大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录