five

DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L6_1866493

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Morgan_Stanley_Capital_I_Trust_2021_L6_1866493
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集涉及摩根士丹利资本I信托2021-L6(CIK 1866493)的SEC ABS-EE资产级别备案。包含35份备案文件,74个Parquet文件,总大小为17.0 MB,报告期为2021年7月11日至2024年5月13日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按{accession_nodash}/{exhibit_name}.parquet格式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。

SEC ABS-EE asset-level filings for CIK 1866493 (Morgan Stanley Capital I Trust 2021-L6). Includes 35 filings, 74 parquet files, with a total size of 17.0 MB, covering the reporting period from 2021-07-11 to 2024-05-13. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于美国证券交易委员会(SEC)的ABS-EE强制性资产层面披露要求,聚焦于Morgan Stanley Capital I Trust 2021-L6这一资产支持证券产品。通过系统性地爬取EDGAR系统中CIK编号1866493对应的全部XML格式展品文件,从中提取出贷款层面或资产层面的结构化数据,并以Parquet格式进行高效存储。数据集按SEC档案的存取编号(accession number)去连字符后建立目录层级,每个目录下对应展品名称的Parquet文件,同时从XML中解析出报告期结束日期(reportingPeriodEndingDate)以标注时间维度。最终汇集了2021年7月至2024年5月期间的35份备案文件,形成74个Parquet文件,总容量约17.0 MB。
特点
该数据集具备鲜明的结构化与时间序列特征,专注于单一资产支持证券产品(Morgan Stanley Capital I Trust 2021-L6)的资产层面明细数据。数据以高压缩比、支持列式存储的Parquet格式提供,便于高效分析与查询。时间跨度覆盖近三年,包含35个连续报告期的月度备案记录,能够清晰追溯标的资产池的逐月表现与动态演变。每条记录均源自SEC官方合规披露,确保了数据的权威性与可溯源性。此外,数据集通过统一的CIK、表单类型(ABS-EE)及报告日期等元数据进行索引,为量化金融研究和资产池风险建模提供了精细化的原始素材。
使用方法
研究人员可直接通过Python的Pandas库或Apache Arrow读取Parquet文件,利用其列式存储特性快速筛选指定时间区间或特定展品的资产数据。数据集的目录结构以存取编号去连字符后的字符串为顶层文件夹,内嵌以展品名称命名的Parquet文件,推荐使用glob或os模块遍历加载。对于跨报告期的纵向分析,可依据每份Parquet文件内含的报告期结束日期(reportingPeriodEndingDate)字段,将所有月度数据进行拼接与对齐。此外,结合Hugging Face Datasets库,用户能够便捷地将其纳入机器学习管道,配合表格数据处理工具进行特征工程或违约率预测等下游任务。
背景与挑战
背景概述
Morgan Stanley Capital I Trust 2021-L6数据集聚焦于资产支持证券(ABS)领域的监管数据公开化进程。该集合由美国证券交易委员会(SEC)的ABS-EE(资产级电子化申报)计划驱动,旨在通过结构化数据提升市场透明度。创建于2021年7月,由投资银行摩根士丹利主导发行,覆盖从2021年至2024年总计35份监管申报文件、74个Parquet格式资产级数据文件,总规模17.0 MB。核心研究问题在于解析商业抵押贷款支持证券(CMBS)底层贷款的绩效表现,为金融风险建模、信用评级及市场监管提供标准化数据基础。其影响力体现在推动ABS市场向精细化、可复现的量化分析转型,尤其为后金融危机时代的资产证券化监管改革提供了实证支持。
当前挑战
数据集面临的挑战首先来自金融领域的数据异构性与复杂性——ABS-EE申报需从XML展品中提取嵌套的资产级字段,不同发行方对贷款定义(如违约阈值、摊销模式)的差异导致跨数据集整合困难。构建过程中,时间序列的完整性受限于申报周期(约35个月)与指数级增长的监管文件量,需应对XML解析错误、缺失值(如空回报率字段)及表单版本迭代带来的模式漂移。此外,Parquet格式虽优化了存储与查询效率,但非结构化字段(如法律条款文本)的标准化仍需依赖自然语言处理技术,增加了数据清洗与联邦学习兼容性的开发成本。
常用场景
经典使用场景
在资产证券化(ABS)领域,Morgan Stanley Capital I Trust 2021-L6 数据集的核心价值在于为研究抵押贷款支持证券的逐笔贷款表现提供了标准化的结构化数据。该数据集涵盖了从2021年7月至2024年5月的35份ABS-EE定期申报文件,以Parquet格式存储了74个资产层面的数据文件。研究者常利用这些精细的贷款级信息进行现金流建模、违约风险预测以及提前偿还行为分析,从而揭示复杂资产池的底层信用动态。
衍生相关工作
基于此类SEC ABS-EE数据集,学术界和工业界已衍生出多项具有影响力的工作。例如,有研究利用该数据开发了基于机器学习的提前偿付风险预警模型,还有学者通过对比不同发行机构的披露质量,构建了信息透明度指数。此外,该数据也催生了诸如PyABS等开源分析工具,极大地便利了资产支持证券领域的量化研究与监管科技应用。
数据集最近研究
最新研究方向
该数据集聚焦于抵押贷款支持证券(CMBS)领域,通过SEC强制披露的ABS-EE资产级XML数据,提供了摩根士丹利资本I信托2021-L6从2021年7月至2024年5月期间35份申报文件、74个Parquet文件的逐笔贷款明细。这一结构化数据资产为研究资产证券化产品在利率波动与信贷环境变化下的风险传导机制提供了精准的微观视角,尤其助力于分析新冠疫情后商业地产市场压力测试、提前偿付行为建模以及证券分层现金流预测。伴随美国SEC持续推进资产支持证券透明度改革,此类细粒度数据已成为监管科技与金融工程交叉领域的前沿热点,其开放共享特性显著降低了信息不对称,为学术界验证风险定价模型、业界优化投资组合策略及监管层评估系统性风险提供了不可替代的基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作