five

DenyTranDFW/CSAIL_2021_C20_Commercial_Mortgage_Trust_1832873

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/CSAIL_2021_C20_Commercial_Mortgage_Trust_1832873
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含针对CIK 1832873(CSAIL 2021-C20 Commercial Mortgage Trust)的SEC ABS-EE资产级别申报文件。数据集包括42份申报文件,163个Parquet文件,总大小为32.8 MB,报告期从2021年3月11日至2024年7月11日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按照“{accession_nodash}/{exhibit_name}.parquet”的方式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。

SEC ABS-EE asset-level filings for CIK 1832873 (CSAIL 2021-C20 Commercial Mortgage Trust). The dataset includes 42 filings, 163 parquet files, with a total size of 32.8 MB, covering the reporting period from 2021-03-11 to 2024-07-11. Parquet files are loan-level / asset-level data extracted from XML exhibits, organised as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于CSAIL 2021-C20商业抵押贷款信托基金(CIK 1832873)的SEC ABS-EE资产层面申报文件,通过系统化爬取与解析EDGAR系统中自2021年3月至2024年7月间的42份ABS-EE表格(含修正版本),将XML展品中的贷款级数据精炼为163个Parquet文件,并以`{accession_nodash}/{exhibit_name}.parquet`的目录结构组织,其中`reportingPeriodEndingDate`字段精准锚定报告周期。
特点
该数据集以32.8 MB的紧凑体积承载了三年密集的资产端时间序列,凸显了商业抵押贷款信托在疫情后经济周期中的动态表现。其核心优势在于Parquet格式的列式存储与高效压缩特性,配合SEC强制披露的标准化XML元数据,确保了数据颗粒度精细至单笔贷款层面,同时具备跨期可比性与机器可读性,是分析结构化金融产品资产池表现与信用风险的理想素材。
使用方法
用户可借助Python中的pandas或Dask框架直接读取Parquet文件,通过`clustering_by_cik`或`accession_number`筛选特定报告期的子集。数据集支持多种分析路径,包括资产池集中度测算、逾期率与偿付序列的时序建模,亦可结合SEC EDGAR的原始URL追溯至完整申报文本,为验证数据一致性或扩展研究提供闭环支持。
背景与挑战
背景概述
在资产支持证券(ABS)领域,尤其是商业抵押贷款支持证券(CMBS)的透明度和标准化数据分析一直是金融监管与市场研究的关键课题。CSAIL 2021-C20 Commercial Mortgage Trust数据集由CSAILL(Credit Suisse Asset Income Limited)发起,旨在系统化整理SEC(美国证券交易委员会)ABS-EE(资产支持证券交易所电子化)资产层级的披露文件。该数据集从2021年3月11日至2024年7月11日,涵盖42份申报文件、163个Parquet文件,总容量约32.8 MB,聚焦于CIK编号1832873所代表的信托实体。数据以贷款层级/资产层级的XML展品信息为基础,通过Parquet格式结构化存储,每个文件对应特定申报编号和展品名称,并包含报告期截止日期的元数据。这一数据集为研究者提供了首个标准化、可机读的CMBS底层资产数据来源,极大地推动了证券化产品金融风险分析和抵押贷款池绩效评估的实证研究。
当前挑战
该数据集所解决的领域核心挑战在于ABS市场长期存在的信息不对称问题。CMBS的资产层级数据通常散落在复杂繁多的XML展品中,缺乏统一的提取和结构化手段,导致风险定价和违约预测缺乏高质量的微观数据支撑。构建过程中面临的主要挑战包括:从SEC EDGAR系统的海量非结构化XML文档中准确解析并提取贷款层面的财务和运营信息,尤其是处理exhibit命名和结构的不一致问题;确保不同申报日期数据的时间序列连续性,避免因数据缺失或滞后影响模型的有效性;以及将异构数据格式高效、无损地转换为适合大规模分析的Parquet列式存储格式,同时保持与SEC原始披露的完全可追溯性,这对数据清洗和验证流程提出了极高要求。
常用场景
经典使用场景
在资产证券化(ABS)研究领域,CSAIL 2021-C20 Commercial Mortgage Trust数据集为学者和从业人员提供了一个宝贵的结构化数据源,用于深入分析商业抵押贷款支持证券(CMBS)的资产层面特征。该数据集收录了从2021年3月到2024年7月期间共计42份SEC ABS-EE备案文件,以Parquet格式呈现了163个贷款级资产数据文件。经典使用场景包括对CMBS底层贷款的信用风险评估、现金流建模以及证券化产品的定价分析,研究者可借助这些精细化的资产数据构建更准确的违约概率预测模型。
解决学术问题
该数据集有效解决了传统CMBS研究中因缺乏公开、细粒度资产数据而难以开展微观层面实证分析的学术困境。通过提供标准化的贷款级时间序列数据,研究者能够深入探讨商业地产贷款的偿付行为、提前还款模式以及违约触发机制等关键学术问题。其意义在于填补了美国商业抵押贷款证券化领域公开结构化数据的空白,使得资产支持证券的透明度研究、信息不对称问题的量化分析以及交易结构对贷款表现的影响评估成为可能,为金融监管政策的制定提供了实证基础。
衍生相关工作
基于CSAIL 2021-C20 Commercial Mortgage Trust这一数据集,学术界已衍生出一系列具有影响力的研究工作。在方法论层面,研究者开发了针对CMBS资产池的生存分析模型,用以预测贷款违约的时间分布。在实证层面,相关论文探讨了新冠疫情前后商业地产贷款表现的结构性变化,以及远程办公趋势对办公楼宇抵押贷款质量的影响。此外,该数据集也被用于验证基于大语言模型进行金融文本信息抽取的效果,推动资产支持证券信息披露的自动化分析工具发展,为构建更高效的金融市场监管基础设施提供了实验载体。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作