DenyTranDFW/Benchmark_2022_B37_Mortgage_Trust_1946375
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Benchmark_2022_B37_Mortgage_Trust_1946375
下载链接
链接失效反馈官方服务:
资源简介:
Benchmark 2022-B37 Mortgage Trust数据集包含美国证券交易委员会(SEC)ABS-EE资产级别文件,针对CIK 1946375(即Benchmark 2022-B37 Mortgage Trust)。数据集包含21个文件,44个Parquet文件,总大小为20.3 MB,报告期从2022年10月11日至2024年6月11日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,并按{accession_nodash}/{exhibit_name}.parquet的方式组织。报告期日期来源于资产级别XML中的reportingPeriodEndingDate。
SEC ABS-EE asset-level filings for CIK 1946375 (Benchmark 2022-B37 Mortgage Trust). The dataset includes 21 filings, 44 Parquet files, with a total size of 20.3 MB, covering the reporting period from 2022-10-11 to 2024-06-11. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
该数据集围绕Benchmark 2022-B37 Mortgage Trust(CIK 1946375)构建,系统性地采集了其向美国证券交易委员会(SEC)提交的ABS-EE资产层面申报文件。数据覆盖自2022年10月至2024年6月的21份申报文件,包含44个Parquet格式文件,总容量约20.3 MB。构建过程将源自XML附件的贷款级或资产级数据提取并整理为Parquet文件,文件按访问编号与附件名称组织,例如{accession_nodash}/{exhibit_name}.parquet。报告期日期信息则直接从资产级XML中提取字段reportingPeriodEndingDate获得。
特点
该数据集的核心特点在于其针对单一信托基金(Benchmark 2022-B37 Mortgage Trust)的资产支持证券(ABS)申报信息进行深度聚焦,提供了高颗粒度的资产级数据。数据时间跨度近两年,包含连续的月度或季度申报记录,确保时序上的完整性和可比性。通过Parquet格式存储,数据在压缩率和查询效率上表现优异,便于大规模金融数据分析。此外,数据集中附带了详尽的申报索引表,清晰列示了每一份申报的CIK编号、表格类型、访问编号、报告日期及SEC官方网址,极大提升了数据的可追溯性与透明度。
使用方法
用户可直接通过HuggingFace数据集页面获取该数据集的Parquet文件,文件按访问编号和附件名称的路径结构存放,便于使用Pandas等库加载并解析。分析时,可基于任意文件中的资产级字段进行金融建模,或结合申报索引表,按报告日期对数据进行时序切分。对于需要关联多个申报周期的研究,用户可逐次读取不同报告期的Parquet文件,并将相关字段拼接成分析数据集。数据集中所有文件均遵循开源GPL许可证,支持学术和商业场景下的自由使用与二次分发。
背景与挑战
背景概述
Benchmark_2022_B37_Mortgage_Trust数据集是由美国证券交易委员会(SEC)根据ABS-EE法规要求,针对特定抵押贷款信托(CIK编号1946375)创建的资产层面数据集合。该数据集自2022年10月首次备案至2024年6月,历时近两年,包含21份申报文件与44个Parquet文件,总规模达20.3 MB。研究焦点在于通过结构化XML附件中的每笔贷款信息,揭示资产支持证券(ABS)的基础资产表现与风险特征。作为SEC推动金融透明度的重要举措,该数据集为学术界与监管机构提供了细粒度的抵押贷款信用评估、违约预测及证券化产品定价的实证基础,在金融数据挖掘与风险管理领域具有标杆性影响力。
当前挑战
该数据集面临的首要挑战在于资产支持证券领域的信息不对称与定价复杂性,传统评级方法难以捕捉抵押贷款池内异质性风险,而此数据通过逐笔贷款披露为精准建模提供可能性。构建过程中,核心挑战包括从非标准化的XML附件中高效提取并清洗字段(如报告期末日期),历经21个月跨度的多次申报确保时间序列完整性,以及将不同备案格式统一转换为Parquet格式以支撑大规模分析。此外,数据集的规模虽仅20.3 MB,但其结构化处理需妥善回溯监管口径变化,防止因规则演变导致跨期比较偏差,这对金融数据工程提出了严格的一致性要求。
常用场景
经典使用场景
在资产证券化(ABS)领域,Benchmark_2022_B37_Mortgage_Trust数据集为研究人员提供了详尽的逐笔贷款层面资产表现数据,涵盖从2022年10月至2024年6月期间21份SEC ABS-EE备案文件的44份Parquet文件。这一数据集经典的使用场景聚焦于住房抵押贷款支持证券(RMBS)的微观结构分析,通过追踪每笔贷款的还款状态、逾期情况及现金流变化,构建基准池的信用风险模型。研究者可借助其细粒度的资产级数据,揭示贷款池内部的异质性特征,为评估结构化产品的违约概率与损失分布提供实证基础,从而推动ABS定价与风险管理领域的理论创新。
解决学术问题
该数据集核心解决了资产证券化研究中长期存在的数据透明度不足问题。学术领域常受限于公开披露的汇总数据,难以深入剖析单笔贷款层面的风险传导机制。Benchmark_2022_B37_Mortgage_Trust通过提供标准化、机读的XML衍生Parquet文件,使研究者能够量化抵押贷款提前偿付行为、违约触发条件以及信用增级效果。这一数据资产显著降低了信息不对称,助力学者验证或修正诸如期权调整利差模型、宏观压力测试框架等经典理论,并推动了对SEC ABS-EE监管规则经济后果的实证评估,为金融监管政策优化提供了科学依据。
衍生相关工作
围绕该数据集衍生了多项开创性工作,推动金融大数据分析技术演进。一方面,研究者基于其结构化资产级数据构建了抵押贷款违约预测的机器学习模型,如利用梯度提升树或时序神经网络捕捉贷款特征与宏观经济变量的非线性关联;另一方面,衍生出动态现金流模拟框架,将SEC披露的逐期贷款表现数据整合进蒙特卡洛模拟,实现对ABS证券分档现金流的精确重演。此外,该数据集还催生了针对ABS-EE标准化XML模式的解析工具与可视化仪表盘,以及结合自然语言处理技术分析备案文件中非结构化文本的尝试,显著拓展了资产证券化研究的方法论边界。
以上内容由遇见数据集搜集并总结生成



