five

DenyTranDFW/BANK_2021_BNK35_1872347

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/BANK_2021_BNK35_1872347
下载链接
链接失效反馈
官方服务:
资源简介:
BANK 2021-BNK35数据集包含CIK 1872347(BANK 2021-BNK35)的SEC ABS-EE资产级别备案文件。数据集包含34个备案文件,74个Parquet文件,总大小为4.9 MB,报告期从2021年8月11日至2024年5月13日。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按照{accession_nodash}/{exhibit_name}.parquet的方式组织。报告期日期来源于资产级别XML(reportingPeriodEndingDate)。

The BANK 2021-BNK35 dataset contains SEC ABS-EE asset-level filings for CIK 1872347 (BANK 2021-BNK35). The dataset includes 34 filings, 74 parquet files, with a total size of 4.9 MB, and a reporting period from 2021-08-11 to 2024-05-13. Parquet files are loan-level / asset-level data extracted from XML exhibits, organized as {accession_nodash}/{exhibit_name}.parquet. Reporting-period dates are derived from the asset-level XML (reportingPeriodEndingDate).
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
BANK_2021_BNK35_1872347数据集源自美国证券交易委员会(SEC)的ABS-EE(资产支持证券电子化提交)系统,聚焦于CIK编号为1872347的BANK 2021-BNK35这一特定资产支持证券。该数据集通过提取XML展品中的贷款级或资产级数据,整理为Parquet文件格式而构建。共包含34份申报文件,形成74个Parquet文件,总容量约4.9兆字节。每个Parquet文件以存取号加展品名称的路径结构组织,便于按申报批次追溯。报告期跨度从2021年8月11日至2024年5月13日,日期元数据直接来源于资产级XML中的报告期末日期字段,确保了时间维度的精确性与一致性。
特点
该数据集的核心特点在于其精细的资产级别粒度与标准化格式。数据以Parquet这一高效列式存储格式呈现,兼具压缩性能与快速读取能力,特别适合大规模结构化数据的分析场景。作为SEC监管披露的衍生品,数据集享有官方认证的权威性与完整性,覆盖了长达近三年的持续报告周期,清晰映射了该资产支持证券从发行到后续跟踪的完整生命周期。此外,每份申报均关联了SEC官网的直接链接,增强了数据的可验证性与溯源能力,为学术研究或金融分析提供了坚实且透明的数据基石。
使用方法
使用该数据集时,研究者可直接通过读取Parquet文件进行数据处理,兼容主流的Python数据分析库如Pandas或PyArrow。每个Parquet文件由存取号与展品名称唯一标识,可按需加载特定申报批次的资产级明细数据。结合SEC官网提供的原始申报链接,用户能够交叉验证数据内容或补充上下文信息。数据集适用于资产支持证券的信用风险建模、现金流预测、以及监管合规性分析等任务,其结构化的时间序列特性尤为适合进行面板数据分析或纵向对比研究。
背景与挑战
背景概述
资产支持证券(ABS)作为结构化金融产品,其信息披露的透明度与标准化程度直接影响市场定价效率与风险管控能力。在此背景下,BANK_2021_BNK35_1872347数据集应运而生,由SEC ABS-EE项目于2021年8月首次创建,追踪CIK编号1872347对应的BANK 2021-BNK35抵押贷款支持证券(MBS)合约。该数据集汇集了自2021年8月至2024年5月间的34份定期申报文件,以Parquet格式提取XML附件中的底层贷款级/资产级数据,总计74个文件、容量4.9MB。其核心研究问题在于为金融科技与资产证券化领域提供结构化、可机器读取的标准化底层资产数据,从而填补美国SEC ABS-EE规则下历史数据碎片化的空白。该数据集对资产定价模型校准、违约风险预测及监管合规分析具有重要推动作用,尤其为多期资产池动态监控提供了高时间粒度参考基准。
当前挑战
该数据集主要面临三大核心挑战:其一,解决资产支持证券市场底层数据非标化难题。传统ABS交易依赖PDF格式的散乱披露文本,难以支撑自动化风险建模与跨资产比较分析,该数据集通过Parquet标准化格式实现了结构化的字段提取与时间序列对齐,显著提升了数据可比性。其二,构建过程中需应对XML字段解析的复杂性。不同申报期的资产级XML exhibit可能存在标签体系差异、缺失关键字段或数据格式不统一等问题,例如`reportingPeriodEndingDate`字段的跨期一致性校验需手工干预。其三,数据集的时序覆盖范围仅为约三年,且仅包含单一CIK主体(BANK 2021-BNK35),限制了其对更广泛MBS市场异质性特征的表征能力,难以直接泛化至多资产类别或历史危机场景下的压力测试需求。
常用场景
经典使用场景
在资产支持证券(ABS)领域,BANK 2021-BNK35数据集为研究抵押贷款支持证券的资产池表现提供了详尽的微观数据基础。该数据集收录了自2021年8月至2024年5月间共计34份SEC ABS-EE合规申报文件,内含74个Parquet格式的资产级数据表格。研究者可借助这些贷款级别的结构化信息,深入剖析借款人的偿付行为、资产池的信用质量演化以及现金流的分布规律,进而构建预测模型来评估违约风险或提前偿付概率,是计量经济学和金融工程领域不可或缺的实证素材。
实际应用
在实际应用中,BANK 2021-BNK35数据集能够支持金融机构进行投资组合的风险管理与压力测试。资产管理公司可以基于这些真实的资产级数据校准内部评级模型,优化针对商业抵押贷款支持证券(CMBS)的信用评估流程。此外,监管科技(RegTech)公司可利用该数据集开发自动化合规监测工具,实时追踪资产池表现与申报材料的一致性,从而降低运营成本并增强风险预警能力,促进二级市场流动性的健康发展。
衍生相关工作
基于该数据集衍生的经典工作涵盖了从特征工程到模型解释性的多个方向。研究者已开发出用于自动提取XML展品中资产级字段的工具包,并建立了将非结构化证券化数据转化为可分析Panel Data的标准化流程。此外,有团队利用这些数据训练了针对提前偿付行为的机器学习分类器,其成果被后续工作引用为基线模型。另一些工作则聚焦于可视化网络分析,通过构建资产池与贷款人之间的关联图谱,揭示了系统性风险在证券化链条中的聚集模式,为金融网络理论贡献了实证案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作