five

DenyTranDFW/BANK_2021_BNK31_1840121

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/BANK_2021_BNK31_1840121
下载链接
链接失效反馈
官方服务:
资源简介:
数据集BANK 2021-BNK31包含SEC ABS-EE资产级别文件,针对CIK 1840121。数据集包括41份文件,92个Parquet文件,总大小为6.6 MB。报告期从2021-02-11至2024-06-11。Parquet文件是从XML展品中提取的贷款级别/资产级别数据,按accession number和exhibit名称组织。数据集还包括一个文件索引,包含每份文件的CIK、表格类型、accession number、报告日期和URL等信息。

The dataset BANK 2021-BNK31 contains SEC ABS-EE asset-level filings for CIK 1840121. It includes 41 filings, 92 Parquet files, with a total size of 6.6 MB. The reporting period is from 2021-02-11 to 2024-06-11. The Parquet files are loan-level/asset-level data extracted from XML exhibits, organized by accession number and exhibit name. The dataset also provides a filing index with details such as CIK, form type, accession number, report date, and URL for each filing.
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
在资产证券化(ABS)领域,精细化的资产层级数据是进行风险分析与价值评估的核心基石。BANK_2021_BNK31_1840121数据集正是基于美国证券交易委员会(SEC)的ABS-EE(Asset-Backed Securities Electronic Submission)强制性披露框架构建而成。该数据集系统性地收录了CIK编码为1840121的BANK 2021-BNK31项目自2021年2月至2024年6月期间提交的41份申报文件,通过解析XML附件中的资产层级信息,共生成92份Parquet格式的标准化文件,总数据量达6.6 MB。数据以申报接入号(accession number)去连字符后的字符串作为目录,内嵌对应展品名称的Parquet文件,每一份文件均精确提取了报告期末日期(reportingPeriodEndingDate)等关键时间戳,从而构建起一个时序完整、结构统一的资产级数据集。
使用方法
使用该数据集时,研究者可直接通过Hugging Face平台获取,并借助Python生态中的Pandas、PyArrow或Dask等库高效读取Parquet文件。首先,可利用目录结构中的`{accession_nodash}`划归不同申报批次,再根据`{exhibit_name}.parquet`选定特定展品对应的资产数据。为进行时序分析,推荐以`reportingPeriodEndingDate`字段作为时间索引,对多期数据进行纵向拼接。同时,数据集自带的完整申报索引表(包含CIK、表单类型、报告日期、SEC官网链接等元信息)为数据溯源与交叉验证提供了便利。对于需要构建资产池表现预测模型或进行监管合规性研究的用户,该数据集可直接作为结构化特征输入,无需额外繁杂的解析与清洗流程。
背景与挑战
背景概述
在资产证券化(ABS)领域,美国证券交易委员会(SEC)推动的ABS-EE(Asset-Level Data)规则要求发行人披露详尽的基础资产层面数据,以增强市场透明度和风险定价能力。BANK_2021_BNK31_1840121数据集正是针对此监管框架下的关键产物,由SEC EDGAR系统收录,归属于CIK 1840121(BANK 2021-BNK31)这一商业抵押贷款支持证券(CMBS)交易实体。该数据集创建于2021年,覆盖从2021年2月至2024年6月的41份ABS-EE合规申报文件,包含92个Parquet文件,总容量6.6 MB,核心内容为从XML展品中提取的逐笔贷款/资产层面数据。作为SEC强制披露的标准化数据集,它旨在支持资产池信用风险分析、现金流建模及结构化产品的估值研究,为金融监管合规与实证资产定价研究提供了可复现的结构化数据基础。
当前挑战
该数据集所应对的领域挑战集中于资产支持证券的信息不对称问题。传统ABS市场因基础资产明细缺失而难以进行独立风险审阅,SEC ABS-EE规则的实施虽强制了逐笔贷款披露,但数据来源分散、格式异构(如XML嵌套结构)且需定期更新,给数据整合与分析带来高门槛。在数据集构建过程中,挑战尤为显著:从多达41份的电子化申报文件中精准解析并标准化资产层级的XML展品,需克服XML字段命名差异、缺失值处理及跨时间点的一致性维护;同时,将非结构化数据转换为Parquet列式存储格式,确保了查询效率,但原始数据中隐含的编码误差或贷款属性错位需经严格清洗才能支持下游研究,而数据集本身并未内置校验机制,用户需自行验证数据完整性与逻辑一致性。
常用场景
经典使用场景
在资产证券化(ABS)研究领域,BANK_2021_BNK31_1840121数据集可作为剖析商业抵押贷款支持证券(CMBS)资产池微观结构与信用风险的范本。该数据集包含自2021年2月至2024年6月期间41份SEC ABS-EE备案文件,以Parquet格式存储了92个贷款级资产数据文件,详尽记录了每笔抵押贷款的还款状态、利率变动与违约阈值等关键指标,为学者构建资产池现金流模拟模型和压力测试场景提供了坚实的数据基底。
解决学术问题
该数据集精准回应了资产证券化领域中资产池异质性评估与违约传染效应的量化难题。传统研究因缺乏细粒度的贷款层面披露数据而难以准确度量分层证券的信用利差与提前偿付风险,BANK_2021_BNK31通过标准化XML解析生成的时序数据,使研究者得以追踪每笔商业地产抵押贷款的月度绩效演变,进而揭示资产池内部风险传导路径,对完善结构化金融产品定价理论及监管透明化具有里程碑意义。
实际应用
在实际金融实践中,该数据集被广泛应用于银行和投资机构的风险管理系统开发。量化分析师可基于其贷款级属性构建信用评分卡与早偿预警模型,辅助CMBS的发行定价与投资组合管理。同时,监管科技(RegTech)公司能利用其中的结构化字段自动生成合规报告,并监控底层资产表现偏离基准的情景,从而优化资本计提策略与风险缓释方案,增强金融系统的韧性。
数据集最近研究
最新研究方向
在资产证券化(ABS)领域,BANK 2021-BNK31数据集为研究商业抵押贷款支持证券(CMBS)的微观结构提供了宝贵的资产级数据资源。随着美国SEC通过ABS-EE规则推动底层资产逐笔披露,该数据集涵盖2021至2024年间41份监管申报文件及92个Parquet文件,包含了逐笔贷款的详细特征、还款表现与期限结构。当前前沿方向聚焦于利用这类高频资产级数据训练机器学习模型,以更精准地预测违约风险与提前偿付行为,并探索大模型在非结构化XML文本与数值字段联合建模中的应用。这一数据资产的开放,为监管科技(RegTech)与结构化金融的智能化分析奠定了坚实基础,切实提升了市场透明度与风险定价效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作