DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L7_1883246
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L7_1883246
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及摩根士丹利资本I信托2021-L7(CIK 1883246)的SEC ABS-EE资产级别申报文件。内容包括32份申报文件、70个Parquet文件,总大小为25.1 MB,报告期为2021年10月11日至2024年5月13日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按{accession_nodash}/{exhibit_name}.parquet格式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。
SEC ABS-EE asset-level filings for CIK 1883246 (Morgan Stanley Capital I Trust 2021-L7). The dataset includes 32 filings, 70 Parquet files, with a total size of 25.1 MB, covering the reporting period from 2021-10-11 to 2024-05-13. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
该数据集聚焦于资产支持证券(ABS)领域,具体针对Morgan Stanley Capital I Trust 2021-L7这一信托产品,系统性地收集了其在美国证券交易委员会(SEC)ABS-EE规则下提交的资产层级备案数据。数据构建过程从SEC EDGAR系统中提取CIK 1883246对应的全部ABS-EE备案文件,共整合32份申报材料。每份备案中的XML展品文件被解析为贷款层级或资产层级的结构化信息,并以Parquet列式存储格式保存。文件组织遵循`{accession_nodash}/{exhibit_name}.parquet`的命名规则,确保每条记录与特定的备案访问号和展品名称对应。数据集的报告周期跨度从2021年10月至2024年5月,覆盖了该信托产品长达两年半的资产表现信息。
特点
该数据集的核心特点在于其高精细度与标准化结构。全部70个Parquet文件总大小仅为25.1 MB,体现了列式存储压缩与高效编码的优势。每条记录均包含由XML解析提取的细粒度资产层级字段,为研究者提供了穿透底层资产质量与现金流表现的微观视角。数据集覆盖32个连续月度或季度备案时点,形成了完整的时间序列,支持对资产池表现的纵向追踪。报告期末日期(reportingPeriodEndingDate)字段被明确标注,便于按时间切片进行事件分析或表现归因。此外,所有数据均源自SEC官方备案,具有公开、可验证的合规特性。
使用方法
研究人员可直接利用Parquet文件进行程序化分析,支持Python的pandas、Dask或Spark等框架加载。数据按资产层级组织,适合用于构建结构化金融模型,如现金流预测、违约率建模或提前偿付分析。通过`reportingPeriodEndingDate`字段,可以按时间窗口筛选特定报告期的资产快照。结合filing index中提供的链接,用户可回溯至原始SEC备案页面,核对元数据或补充展品信息。对于跨资产类别对比分析,可协同其他CIK对应的ABS-EE数据集,构建包含多个信托产品的面板数据。该数据集无需预处理即可直接接入机器学习流程,适用于资产定价、风险评级或监管合规领域的量化研究。
背景与挑战
背景概述
在资产证券化(ABS)领域,透明、标准化的资产层面数据对于风险评估与市场监管至关重要。Morgan Stanley Capital I Trust 2021-L7 数据集由SEC ABS-EE项目支持,聚焦于CIK 1883246对应信托,涵盖2021年10月至2024年5月期间的32份申报文件、70个Parquet文件(总计25.1 MB)。该数据集提取自XML附件中的贷款级/资产级数据,旨在为金融科技、监管科技及量化分析提供结构化数据源,推动ABS市场的信息对称性与深度学习模型的可解释性研究。其发布为研究商业抵押贷款支持证券(CMBS)的违约预测、现金流建模及证券化结构分析奠定了坚实数据基础。
当前挑战
该数据集主要挑战在于:首先,ABS-EE领域核心问题是数据异质性与非标准化——不同发行人的XML模式差异显著,导致跨信托数据融合困难,限制了大规模比较研究。其次,构建过程中需克服XML爬取与解析的复杂工程难关,如实时跟踪SEC EDGAR的更新频率、处理嵌套标签的语义歧义,并确保Parquet格式的高效压缩与查询性能。此外,报告周期跨度较短(约2.5年)可能不足以完整捕捉经济周期波动对资产表现的影响,对模型泛化能力构成制约。数据隐私保护法规也要求对敏感字段进行脱敏处理,增加了预处理成本。
常用场景
经典使用场景
在结构化金融研究领域,资产支持证券(ABS)的逐笔贷款层面数据是分析基础资产表现与证券化产品风险的核心要素。Morgan Stanley Capital I Trust 2021-L7 数据集聚焦于摩根士丹利资本I信托在2021年至2024年间的资产层面信息披露,涵盖32份SEC ABS-EE备案文件,并以70个Parquet文件形式存储了从XML展品中提取的逐笔贷款数据。该数据集最经典的使用场景是用于构建资产池信用风险的微观分析模型,研究人员可借此追踪单个贷款的还款表现、逾期状态及违约情况,从而评估证券化产品的分层结构与信用增级机制的有效性。
实际应用
在实际金融场景中,该数据集可被用于自动化监管合规系统与投资决策支持工具的研发。例如,资产管理公司可基于这些资产层面数据开发实时风险监控仪表盘,跟踪抵押贷款组合的提前还款率与信用质量迁徙情况。同时,评级机构能够利用该数据集校准信用评级模型,更准确地评估CMBS(商业抵押贷款支持证券)的预期损失。此外,金融机构可将其作为训练机器学习算法的输入特征,用于设计早期预警系统,识别投资组合中可能恶化的贷款。
衍生相关工作
基于此类SEC ABS-EE数据集,学术界和工业界已衍生出多项具有影响力的工作。例如,有研究者利用类似数据集构建了贷款级别违约概率预测模型,将传统统计方法与深度学习技术相结合,提升了风险分层的精度。另一些工作则聚焦于结构化产品的现金流建模,通过模拟不同经济情景下基础资产的现金流瀑布,优化了资产池的信用评级方法。此外,该数据集还促进了可解释人工智能在金融风控中的应用,推动了透明化信用评估决策流程的开发。
以上内容由遇见数据集搜集并总结生成



