DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L5_1856967
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L5_1856967
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及摩根士丹利资本I信托2021-L5(CIK 1856967)的SEC ABS-EE资产级别申报文件。包含37份申报文件,88个Parquet文件,总大小为30.7 MB,报告期为2021年5月11日至2024年5月13日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按{accession_nodash}/{exhibit_name}.parquet格式组织。申报索引列出了各种申报的详细信息,包括CIK、表格、登记号、报告日期和URL。
SEC ABS-EE asset-level filings for CIK 1856967 (Morgan Stanley Capital I Trust 2021-L5). Includes 37 filings, 88 Parquet files, with a total size of 30.7 MB, covering the reporting period from 2021-05-11 to 2024-05-13. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. The filing index lists various filings with details such as CIK, form, accessionNumber, reportDate, and url.
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
该数据集源自美国证券交易委员会(SEC)的ABS-EE(资产支持证券电子化申报)系统,聚焦于Morgan Stanley Capital I Trust 2021-L5这一特定资产支持证券产品。数据集通过解析SEC EDGAR数据库中CIK编码为1856967的实体提交的XML格式附件构建而成,涵盖自2021年5月至2024年5月期间共计37份申报文件。原始XML附件的资产层面数据被提取并转换为Parquet格式,按访问编号去除连字符后的文件夹与附件名称组织,形成88个Parquet文件,总数据量约为30.7 MB。每个文件均对应特定申报期,其报告日期通过解析XML中的reportingPeriodEndingDate字段精确确定。
特点
该数据集的核心优势在于其精细的资产层面粒度与标准化的结构化存储。作为SEC强制披露的ABS-EE数据,它提供了抵押贷款池中每一笔贷款的详细信息,包括本金余额、利率、逾期状态等关键指标,为深度分析底层资产表现奠定了基础。采用高效的Parquet列式存储格式,兼顾了数据压缩率与查询性能,尤其适合处理大规模时间序列数据。此外,数据集中包含完整的申报时间索引(从2021年5月到2024年5月),覆盖了产品发行后的完整生命周期,便于进行纵向趋势分析与违约风险建模。
使用方法
使用者可通过主流数据处理工具(如Python的Pandas库或Apache Spark)直接读取Parquet文件,利用accession_nodash与exhibit_name的双重路径定位特定申报期与数据集。对于时序分析,可依据reportingPeriodEndingDate列构建时间序列,对贷款池的累计违约率、提前偿付率等指标进行动态计算。研究人员亦可结合SEC EDGAR提供的Filing Index中的URL链接,回溯原始XML文件以验证数据完整性。该数据集适用于资产支持证券定价模型、信用风险评估及监管合规研究等金融科技领域的学术与实务应用。
背景与挑战
背景概述
在资产支持证券(ABS)领域,透明度与数据标准化是市场健康运行的关键基石。Morgan Stanley Capital I Trust 2021-L5 数据集由SEC ABS-EE项目驱动,自2021年5月起至2024年5月,系统性地收录了CIK 1856967(即Morgan Stanley Capital I Trust 2021-L5)的37份申报文件,涵盖88个Parquet文件,总容量达30.7 MB。该数据集聚焦于贷款级/资产级数据的结构化提取,将XML附件中的细粒度信息转化为可分析的表格形式,为金融监管、风险评估及量化研究提供了前所未有的底层数据支撑。其核心价值在于填补了ABS市场微观数据长期匮乏的空白,推动了结构化金融产品信息透明化的进程,对资产定价、违约预测等领域产生了深远影响。
当前挑战
该数据集面临的核心挑战之一在于资产支持证券领域固有的信息不对称问题:底层资产池的异质性与复杂交易结构使得标准化数据提取异常困难,传统文本披露难以满足高频量化分析需求。构建过程中,从非结构化的SEC XML附件中精准解析并整合多时间点的资产级数据(如reportingPeriodEndingDate字段的提取)极为繁琐,需克服格式不一致、命名规范差异等障碍。此外,数据时间跨度虽已覆盖三年,但相较于ABS产品的长期存续周期,样本量仍显不足,如何保障数据完整性并延展至更广泛的证券化产品类型,是后续研究亟需突破的技术瓶颈。
常用场景
经典使用场景
摩根士丹利资本 I 信托 2021-L5(Morgan Stanley Capital I Trust 2021-L5)数据集承载了美国证券交易委员会(SEC)ABS-EE(资产支持证券电子化资产层面数据)强制性披露的贷款级原始信息。该数据集涵盖自2021年5月至2024年5月长达三年的37份合规文件,整理为88个Parquet格式文件,浓缩约30.7 MB的结构化资产明细。经典使用场景聚焦于资产支持证券(ABS)领域的微观层面实证研究,研究者可依此剖析抵押贷款池的逐笔贷款特征、现金流分布及违约风险演变,为金融资产定价与结构化产品设计提供精细数据根基。
实际应用
就实际应用而论,该数据集在金融监管科技与投资决策支持系统中扮演着基石角色。监管机构可借助其高频更新的逐笔贷款档案监控系统重要性ABS产品的底层资产迁徙质量,提早预警系统性风险积聚。投资银行和资产管理公司则能够通过提取并分析贷款层面的历史偿付模式与抵押品属性,优化资产组合配置策略,测算压力情境下的现金流瀑布分配,从而提升CMBS(商业抵押贷款支持证券)与RMBS(住房抵押贷款支持证券)产品的估值精度与风险对冲效率。
衍生相关工作
围绕该数据集的衍生研究已孕育出一系列具有深远影响的经典工作。在结构化金融领域,学者基于此类资产级数据发展了端到端的违约传导与回收率预测框架,创新性地利用图神经网络对各笔贷款间的联动效应进行建模。信用评级与监管合规方向催生了自动化ABS信息披露比对工具及底层贷款异常检测算法,实现了合规文本向结构化洞察的高效转化。此外,该数据集还与宏观经济指标融合,构建了信贷周期敏感的压力测试模拟平台,引领了数据驱动型金融监管评估的新范式。
以上内容由遇见数据集搜集并总结生成



