five

DenyTranDFW/BANK_2022_BNK39_1902565

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/BANK_2022_BNK39_1902565
下载链接
链接失效反馈
官方服务:
资源简介:
数据集BANK 2022-BNK39包含美国证券交易委员会(SEC)ABS-EE资产级别备案文件,针对CIK 1902565。数据集包括37份备案文件,92个Parquet文件,总大小为4.7 MB。报告期从2022年2月11日至2026年2月11日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按无破折号的accession号和展品名称组织。数据集还包含一个备案索引,详细列出了每份备案的CIK、表格类型、accession号、报告日期和URL。

The dataset BANK 2022-BNK39 contains SEC ABS-EE asset-level filings for CIK 1902565. It includes 37 filings, 92 Parquet files, with a total size of 4.7 MB. The reporting period is from 2022-02-11 to 2026-02-11. The Parquet files are loan-level/asset-level data extracted from XML exhibits, organized as {accession_nodash}/{exhibit_name}.parquet. The dataset also provides a filing index with details such as CIK, form type, accession number, report date, and URL for each filing.
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
在资产支持证券(ABS)领域,精细化的资产层面数据是风险评估与定价的基石。本数据集聚焦于CIK代码1902565对应的BANK 2022-BNK39交易,系统性地从美国证券交易委员会(SEC)的ABS-EE(资产支持证券电子化提交)系统中提取了其全部XML展品文件。通过解析这些结构化的XML数据,将每一笔贷款的详细信息转换为高效的Parquet格式,并以`{accession_nodash}/{exhibit_name}.parquet`的路径进行组织,最终整合为包含37次申报、92个Parquet文件、总计4.7MB的标准化数据集合。数据的时间跨度从2022年2月11日覆盖至2026年2月11日,完整记录了该资产池的生命周期表现。
特点
该数据集最显著的特征在于其高度的结构化与时间序列属性。每一份Parquet文件都精确对应于一次SEC申报中的特定展品,确保了数据来源的可追溯性。数据中明确包含了源自XML的`reportingPeriodEndingDate`字段,使得研究者能够轻松按月度或季度对齐观测值,从而进行资产池的纵向表现分析。尽管整体规模紧凑,其每笔贷款的粒度信息为构建违约概率模型、评估提前偿付风险以及进行现金流压力测试提供了无与伦比的细节支持,尤其适合需要逐笔资产数据进行精确计量的金融研究场景。
使用方法
本数据集的使用极为便捷,兼容主流的数据科学工作流。研究者可以直接利用Python的Pandas库或Apache Spark等支持Parquet格式的工具,通过读取指定路径下的文件来加载特定申报期的资产数据。例如,使用`pd.read_parquet('0001539497-22-000089/asset.parquet')`即可加载2022年2月11日的申报数据。结合数据集自带的申报索引表,可以方便地根据`reportDate`筛选不同时间点的快照数据,进而开展动态面板数据分析。对于需要大规模处理全部37次申报的情况,可通过循环遍历所有Parquet文件或使用Dask等并行计算框架来高效整合,从而服务于从基础统计描述到复杂机器学习的各类定量分析任务。
背景与挑战
背景概述
在资产证券化(ABS)领域,透明、标准化的资产层数据是评估信用风险与市场定价的基石。由美国证券交易委员会(SEC)ABS-EE制度催生的BANK 2022-BNK39数据集,聚焦于由CIK 1902565标识的特定商业抵押贷款支持证券(CMBS)交易,创建于2022年2月,收录了37份备案文件与92个Parquet格式的资产级数据文件,时间跨度覆盖至2026年。该数据集由Edgar系统提取自XML展品,为研究者与市场参与者提供了微观层面的贷款性能追踪能力,显著增强了CMBS市场的可分析性与透明度,对金融稳定性监测、违约预测模型开发及SEC监管合规研究具有深远影响力。
当前挑战
该数据集所解决的领域核心挑战在于CMBS市场中资产级数据的高度碎片化与非标准化,导致投资者难以进行跨交易的风险比较与定价。构建过程中,面临从非结构化的SEC XML展品中精确提取并清洗贷款层级字段的复杂性,尤其是处理长达数年的月度报告周期内数据的一致性与完整性。此外,不同备案文件之间的时间对齐、缺失值填补以及Parquet格式的高效转化,均对技术实现提出了严峻要求。最终,该数据集通过标准化流程有效降低了信息不对称,但确保历史数据回溯的准确性与实时更新的无缝衔接,仍是持续的挑战。
常用场景
经典使用场景
在资产证券化(ABS)研究领域,BANK_2022_BNK39_1902565数据集凭借其详尽的贷款级资产层面数据,成为剖析商业抵押贷款支持证券(CMBS)结构的经典工具。研究者利用该数据集可追溯每一笔贷款的偿付表现、基础资产特征及现金流变化,从而构建精细化的风险定价模型。其按月披露的申报周期,为时序分析提供了高粒度数据基础,尤其适用于评估资产池的信用质量演变与早偿行为模式。
衍生相关工作
围绕此类SEC ABS-EE数据集,衍生出了一系列具有高度影响力的学术与开源工作。典型成果包括基于此数据训练的机器学习违约预测模型,以及用于模拟极端市场环境下资产池现金流压力的蒙特卡洛模拟框架。此外,有研究将其作为验证新巴塞尔协议中内部评级法标准是否适用于结构化产品的基准测试集,推动了实证资产定价工具的改进。
数据集最近研究
最新研究方向
在资产证券化(ABS)领域,BANK 2022-BNK39数据集聚焦于抵押贷款支持证券(CMBS)的标准化资产级信息披露,该方向与SEC依据《证券法》颁布的ABS-EE规则紧密相连。当前前沿研究致力于利用这些高颗粒度的贷款层面结构化数据,结合机器学习和自然语言处理技术,精准建模商业抵押贷款的违约风险与提前偿付行为,以提升信用评级模型的透明度。此外,该数据集跨越2022至2026年的报告期,为分析后疫情时代商业地产市场波动、利率上升对资产池表现的动态影响提供了独特的时间序列窗口。其价值在于推动更精细化的ABS定价与监管科技发展,强化市场参与者对结构化产品内在风险的识别能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作