DenyTranDFW/Benchmark_2021_B30_Mortgage_Trust_1885855
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Benchmark_2021_B30_Mortgage_Trust_1885855
下载链接
链接失效反馈官方服务:
资源简介:
Benchmark 2021-B30 Mortgage Trust数据集包含SEC ABS-EE资产级别文件,针对CIK 1885855。数据集包括40个文件,98个Parquet文件,总大小为10.5 MB,报告期为2021年11月12日至2026年2月11日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按照{accession_nodash}/{exhibit_name}.parquet的方式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。
The Benchmark 2021-B30 Mortgage Trust dataset contains SEC ABS-EE asset-level filings for CIK 1885855. The dataset includes 40 filings, 98 parquet files, with a total size of 10.5 MB, and a reporting period from 2021-11-12 to 2026-02-11. Parquet files are loan-level / asset-level data extracted from XML exhibits, organized as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
该数据集聚焦于Benchmark 2021-B30 Mortgage Trust(CIK编号1885855)的资产支持证券(ABS-EE)层面披露信息,系统性地汇集了其向美国证券交易委员会(SEC)提交的40份ABS-EE格式文件。通过从XML附件中提取贷款级或资产级数据,并转换为98个Parquet文件进行存储,每个文件以“存取号_无连字符/附件名称.parquet”的清晰层级结构组织。数据的时间跨度从2021年11月12日起至2026年2月11日止,其中报告期日期源自资产级XML字段中的“reportingPeriodEndingDate”标记,确保了时间维度的精准映射,从而构建起一个结构化、可追溯的资产层面数据库。
特点
该数据集具有显著的标准化与细粒度特征。所有数据均源自SEC强制披露的ABS-EE表格,遵循统一的监管格式,保障了信息的一致性与合规性。其核心优势在于资产级粒度的数据呈现,每一笔贷款的微观特征如还款状态、利率变动等均可被独立解析,而非聚合宏观指标。此外,跨越近五年的连续报告周期(40份逐月或定期文件)提供了纵向时序分析的可能性,便于追踪资产池的信用表现与现金流动态。10.5MB的紧凑体积结合Parquet列式存储格式,兼顾了高效存取与大规模分析的兼容性。
使用方法
用户可通过编程方式直接加载Parquet文件进行探索性分析。推荐使用Python的Pandas库结合PyArrow引擎,例如以'pd.read_parquet('路径/文件名.parquet')'读取单个文件,或利用Glob模块批量遍历全部98个文件形成综合数据框。对于需要与时序事件(如还款逾期、违约)关联的研究,可利用'reportingPeriodEndingDate'字段链接至各期申报的URL(详见Filing index)以获取全量上下文。由于数据采用按存取号归类的目录结构,建议根据特定的报告日期或附件类型进行筛选,以聚焦于目标窗口期或资产类别。
背景与挑战
背景概述
在资产证券化(ABS)领域,抵押贷款信托作为重要的金融工具,其底层资产的透明度和数据可获取性一直是监管与投资分析的核心议题。Benchmark 2021-B30 Mortgage Trust数据集由美国证券交易委员会(SEC)依据ABS-EE(资产支持证券数据提取)规则创建,收录了自2021年11月至2026年2月期间,该信托向SEC提交的40份合规备案文件。这些数据以Parquet格式结构化存储,包含98个文件,总容量达10.5 MB,详细记载了每笔贷款的属性与表现。该数据集为量化投资者、金融监管者及学术研究者提供了宝贵的高频微观数据,助推了信用风险建模、贷款绩效预测及市场风险监测等领域的发展,成为连接公开监管信息与深度金融分析的桥梁。
当前挑战
该数据集所解决的领域核心挑战在于资产支持证券市场中存在的严重信息不对称,使得投资者难以穿透底层贷款池实现精准风险定价。具体而言,传统上抵押贷款信托的数据分散于非结构化的文本文件,提取与标准化极为繁琐。构建过程中,面临的首要挑战是从繁杂的XML附件中精确解析并结构化每个贷款级别字段,确保跨报告期数据的一致性与可链接性。此外,不同备案文件在时间跨度内可能因数据披露标准更新而产生字段变动,维护数据谱系的连续性与完整性是另一技术难题。还需应对因底层贷款提前偿还、违约或缓释措施导致的动态数据变化,以及大规模时间序列数据在存储与查询上的效率问题。
常用场景
经典使用场景
在资产证券化研究领域,Benchmark_2021_B30_Mortgage_Trust数据集作为一枚精细的透镜,为剖析住房抵押贷款支持证券的微观结构提供了珍贵素材。该数据集源自美国证券交易委员会(SEC)的ABS-EE强制性资产层面披露,收录了2021年11月至2026年2月期间共计40份定期申报文件,涵盖98个Parquet格式的逐笔贷款数据。研究者可借助其详尽的资产池信息,构建贷款违约概率模型、提前偿付风险预测框架,或深入探究资产池异质性对证券化产品信用评级的内在影响,从而在标准化数据基础上复现与验证经典资产定价理论。
解决学术问题
该数据集直击资产证券化研究中长期存在的透明度赤字问题,通过提供标准化、高频率的资产层面面板数据,为学界解答一系列核心学术难题铺平了道路。它使得研究者能够量化信息不对称如何扭曲证券定价,揭示发起人留存风险与道德风险之间的微妙关联,并实证检验结构化金融产品在危机期间的脆弱性。例如,借助逐月更新的贷款绩效指标,学者可精确测算贷款层面的拖欠率、损失严重度及回收周期,从而改进信用风险评估模型,为监管机构优化资产支持证券(ABS)信息披露框架提供实证依据,推动金融市场的稳健性研究迈向新高度。
衍生相关工作
围绕着Benchmark_2021_B30_Mortgage_Trust数据集,一系列突破性的学术与实践工作如雨后春笋般涌现。它催化了基于深度学习的贷款逾期预测模型,研究人员利用序列Transformer架构捕捉贷款还款行为的时序依赖关系,显著提升了违约预警的准确性。同时,该数据集推动了可解释人工智能在抵押贷款评估中的应用,通过SHAP值分析揭示影响贷款表现的关键特征。此外,它还为构建合成资产池生成对抗网络(GAN)提供了训练基准,助力合成数据在隐私保护下的资产定价研究。这些衍生工作不仅深化了对结构化金融产品行为规律的理解,也为监管科技(RegTech)和智能风控系统的迭代升级奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



