DenyTranDFW/BENCHMARK_2021_B31_MORTGAGE_TRUST_1894714
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/BENCHMARK_2021_B31_MORTGAGE_TRUST_1894714
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及SEC ABS-EE资产级别文件,具体针对CIK 1894714(BENCHMARK 2021-B31 MORTGAGE TRUST)。包含39份文件,98个Parquet文件,总大小为13.4 MB,报告期从2021-12-13至2026-02-11。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按{accession_nodash}/{exhibit_name}.parquet组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。
SEC ABS-EE asset-level filings for CIK 1894714 (BENCHMARK 2021-B31 MORTGAGE TRUST). Includes 39 filings, 98 parquet files, total size 13.4 MB, reporting period from 2021-12-13 to 2026-02-11. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
在资产支持证券(ABS)领域,美国证券交易委员会(SEC)强制要求发行人通过ABS-EE表格提交资产层面的详细披露数据。本数据集针对CIK编号为1894714的BENCHMARK 2021-B31 MORTGAGE TRUST,系统收集了其自2021年12月至2026年2月期间的全部39份ABS-EE申报文件。构建过程中,从原始XML展品附件中精准提取了逐笔贷款或资产的微观数据,并将其转换为高效的Parquet格式,最终形成98个结构化文件,总数据量达13.4兆字节。每个文件以申报号(去除连字符)和展品名称的路径层级进行组织,确保了数据溯源清晰且便于批量处理。
特点
该数据集的核心优势在于其精细的资产颗粒度与规范的时间序列完整性。数据覆盖了从信托设立到存续期结束的完整申报周期,时间跨度超过四年,为研究抵押贷款池的长期表现提供了连续快照。所有记录均源自SEC官方EDGAR系统,来源权威且合规性有保障。Parquet列式存储格式不仅压缩比高,还内嵌了Schema信息,支持高效的条件筛选与聚合运算。数据集还包含了通过XML字段自动推断的每个报告期的结束日期,使得时间序列分析更加直接。
使用方法
该数据集的设计充分考虑了金融分析与研究场景的易用性。用户可借助Python的Pandas库或DuckDB等支持Parquet的查询引擎,直接按申报时间或资产类型进行切片分析。例如,通过读取特定accession号下的Parquet文件,即可获得当期的所有贷款明细,进而计算违约率、提前偿还率等关键风险指标。数据集还提供了完整的申报索引表格,包含CIK、表单类型和SEC归档链接,方便交叉验证和深度溯源。对于需要构建ABS定价模型或开展结构化金融实证研究的学者而言,该数据可作为底层资产池模拟的基础语料库。
背景与挑战
背景概述
在资产证券化(ABS)领域,底层资产数据的高质量披露是市场透明度和风险定价的关键基石。BENCHMARK 2021-B31 MORTGAGE TRUST数据集由美国证券交易委员会(SEC)的ABS-EE(Asset-Backed Securities Electronic Filing)项目驱动,专注于CIK编号1894714的抵押贷款信托,创建时间跨越2021年至2026年,涵盖了从初始发行到持续报告期的39份申报文件和98个Parquet文件。该数据集的核心研究问题在于通过结构化的资产级别XML展品,提取贷款层面的详细信息,以量化抵押贷款池的信用表现、现金流分布和违约风险,为学界和业界提供了实证分析SEC监管下ABS信息披露质量与市场效率的宝贵窗口。作为SEC ABS-EE标准的典型应用实例,该数据集对理解结构化金融产品的数据标准化、监管合规以及资产池微观结构具有显著影响力,推动了量化金融与金融监管科技的发展。
当前挑战
该数据集面临的挑战首先体现在领域问题层面:ABS市场长期受困于信息不对称,底层抵押贷款的异质性、提前偿付行为的不确定性以及房价波动的动态影响,使得基于聚合数据进行的信用风险评估模型常存在偏差,数据集需提供细粒度资产信息以支撑更为精确的现金流建模和压力测试。在构建过程中,挑战尤为突出:从39份XML展品中高效提取并统一98个Parquet文件的字段定义,需应对不同申报期对于资产层级数据格式的微小变动;同时,时间跨度内可能出现的申报修订(如ABS-EE/A表格)要求数据版本控制和去重逻辑,以确保时序分析的准确性;此外,loan-level数据在连接申报表格与资产表现时,需处理缺失值、数据异常和报告截止日期匹配(reportingPeriodEndingDate)的复杂对齐问题,这构成了数据清理与标准化的核心难点。
常用场景
经典使用场景
在资产证券化研究领域,BENCHMARK_2021_B31_MORTGAGE_TRUST数据集凭借其详尽的逐笔贷款级别数据,成为剖析住房抵押贷款支持证券(RMBS)运作机理的经典资源。该数据集收录了自2021年12月至2026年2月间共39份SEC ABS-EE备案文件,拆解为98个Parquet格式文件,囊括了资产池中每笔贷款的原始特征、还款动态与信用表现。研究者能够借此精准追踪贷款层面的现金流生成路径,深入分析提前偿付、违约及损失等关键风险指标的演化规律,为构建违约概率模型和损失严重性模型提供坚实的数据基石。
衍生相关工作
基于此数据集,学术界和业界衍生出一系列具有影响力的经典工作。在模型构建方面,研究者开发了结合时间序列分析与图神经网络的贷款迁移矩阵预测框架,用以模拟未来违约分布的动态演变。在可解释性研究上,有工作利用该数据训练的可解释提升树模型,揭示了影响抵押贷款提前偿付的关键因子及其非线性交互作用。此外,另一些研究将该数据集作为基准,用于比较不同深度学习架构在信用风险预测任务上的表现优劣,推动了金融AI领域的标准化评测体系建设。
数据集最近研究
最新研究方向
在资产支持证券领域,BENCHMARK 2021-B31 MORTGAGE TRUST数据集为抵押贷款池的微观风险建模提供了绝佳契机。当前前沿研究聚焦于借助机器学习模型从这些细粒度、时间序列化的单笔贷款数据中,挖掘提前偿付与违约行为的非线性因子,以应对后疫情时代利率剧烈波动所引发的信用风险重定价。该数据集涵盖2021年至2026年的持续申报,完整横跨了美联储激进加息周期,使其成为检验信贷周期传导效应与结构化产品现金流的“压力测试”基准。其对提升ABS-EE数据透明度与标准化水平的贡献,正推动着监管科技与量化风控领域迈向更深层次的实证探索。
以上内容由遇见数据集搜集并总结生成



