DenyTranDFW/Benchmark_2024_V5_Mortgage_Trust_2004982
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Benchmark_2024_V5_Mortgage_Trust_2004982
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含SEC ABS-EE资产级别文件,涉及CIK 2004982(Benchmark 2024-V5 Mortgage Trust)。数据集包括5份文件,10个Parquet文件,总大小为5.5 MB,报告期为2024-02-06至2024-06-06。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按{accession_nodash}/{exhibit_name}.parquet格式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。
SEC ABS-EE asset-level filings for CIK 2004982 (Benchmark 2024-V5 Mortgage Trust). The dataset includes 5 filings, 10 parquet files, with a total size of 5.5 MB, and a reporting period from 2024-02-06 to 2024-06-06. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
本数据集聚焦于Benchmark 2024-V5 Mortgage Trust在SEC ABS-EE框架下的资产层面披露信息,通过系统抓取CIK编号2004982对应的XML展品文件构建而成。原始数据以Parquet格式存储,共包含10个文件,分别对应5份ABS-EE申报文件。每个Parquet文件依据备案号与展品名称进行组织,形成`{accession_nodash}/{exhibit_name}.parquet`的层级结构,便于追溯与整合。报告期日期从资产层面XML中的`reportingPeriodEndingDate`字段提取,覆盖自2024年2月6日至2024年6月6日的五个月度周期。
特点
该数据集的核心特点在于其精细化与结构化程度:数据直接源自美国证券交易委员会官方备案,具备高可靠性与权威性。Parquet格式的采用显著提升了存储效率与访问性能,尤其适用于大规模资产层面数据的批量处理。此外,数据涵盖完整的时间序列,包含五个月份的连续申报记录,为分析信托资产的动态变化提供了纵深感。所有字段均来源于标准化XML模板,确保了跨备案文件的一致性,便于多期数据的横向对比与聚合分析。
使用方法
使用本数据集时,研究人员可直接通过Parquet文件的目录路径定位所需展品,利用Python的Pandas或PyArrow库快速加载数据。对于多期分析,可通过挂载关联的税务备案索引表,按`accessionNumber`或`reportDate`字段筛选特定时间窗口的资产记录。数据中的字段名称与SEC ABS-EE官方模式对齐,用户可参照EDGAR发布的XML标签指南进行语义解析。建议在分析前对不同展品中的变量进行标准化处理,以消除潜在的名词差异,从而支持复杂的资产池特征建模与风险量化评估。
背景与挑战
背景概述
在资产支持证券(ABS)领域,标准化、结构化的资产层级数据对于风险评估与投资决策至关重要。Benchmark_2024_V5_Mortgage_Trust数据集由SEC(美国证券交易委员会)基于ABS-EE(资产支持证券电子化申报)系统于2024年创建,聚焦于CIK代码2004982对应的抵押信托基金。该数据集涵盖2024年2月至6月期间的5份备案文件,共10个Parquet文件,总容量5.5 MB,核心研究问题在于利用XML展品中的贷款级数据揭示抵押贷款池的微观特征,为ABS市场的透明度与金融稳定性分析提供实证基础。其对相关领域的影响力体现在推动结构化金融数据的可获取性与可比性,助力监管机构与投资者深入理解资产池的信用表现。
当前挑战
该数据集所解决的领域问题在于克服ABS市场中资产层级数据碎片化与非标准化带来的分析障碍,例如传统模式下投资者难以从庞杂的XML文件中高效提取贷款层面的偿付、逾期与损失信息。构建过程中面临的主要挑战包括:数据提取的复杂性,需将不同备案中格式各异的XML结构统一转化为可分析的Parquet格式;时间序列对齐的难度,需确保reportingPeriodEndingDate字段的精确匹配以维持数据一致性;以及数据规模虽小但涉及多文件关联与元数据整合,要求自动化流程在有限字段内实现高准确率,避免关键变量遗漏或编码错误。
常用场景
经典使用场景
在资产证券化(ABS)研究领域,Benchmark_2024_V5_Mortgage_Trust_2004982数据集作为SEC要求的ABS-EE资产级披露数据的规范化集合,经典应用于抵押贷款支持证券(MBS)的违约风险建模与现金流分析。研究者通过解析该数据集中每笔贷款的逐月表现字段,如还款状态、利率调整和贷款余额变化,能够准确模拟资产池的信用损失分布并评估结构化产品的分层偿付优先级。其中,将XML格式的原始资产级数据转换为易用的Parquet文件后,可高效支撑大规模时间序列回归和生存分析,成为连接监管公开数据与量化金融模型的核心桥梁。
实际应用
在金融科技与风险管理实务中,本数据集被广泛应用于抵押贷款投资组合的压力测试和智能风控系统开发。资产管理机构可利用每期报表中的实时贷款状态,动态校准信用评分卡与预警阈值,从而在利率波动或经济下行周期中及时调整持仓策略。此外,该数据支撑的机器学习模型能够精准识别高风险贷款簇群,赋能次级贷款服务机构优化催收资源分配,将催收成本降低的同时提升回收率。交易所和监管机构亦借助此数据,通过监测资产池的微观质量变化,完善对证券化产品信息披露的合规审计与投资者保护。
衍生相关工作
基于Benchmark_2024_V5_Mortgage_Trust数据集,衍生出一系列开创性学术工作:首先,有研究者利用贷款级还款序列构建了基于图神经网络的违约关联网络,揭示了个体贷款违约在资产池中的蔓延路径;其次,该数据被融合进联邦学习框架,用于开发跨机构联合的信用风险模型,在保护隐私前提下提升预测泛化能力;再者,其高频报表特性催生了动态现金流瀑布计算新算法,实现了对复杂交易结构(如超额利差账户)的实时估值。这些工作共同拓展了SEC公开数据在金融AI与监管科技中的前沿应用边界。
以上内容由遇见数据集搜集并总结生成



