five

DenyTranDFW/Santander_Drive_Auto_Receivables_Trust_2025_2_2055936

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/Santander_Drive_Auto_Receivables_Trust_2025_2_2055936
下载链接
链接失效反馈
官方服务:
资源简介:
Santander Drive Auto Receivables Trust 2025-2的SEC ABS-EE资产级别备案数据集,包含CIK 2055936的15个备案文件,总大小为83.5 MB。报告期从2025年2月28日至2026年3月31日。数据以Parquet文件格式存储,这些文件是从XML展品中提取的贷款级别/资产级别数据。

SEC ABS-EE asset-level filings for CIK 2055936 (Santander Drive Auto Receivables Trust 2025-2). The dataset includes 15 filings with a total size of 83.5 MB, covering the reporting period from 2025-02-28 to 2026-03-31. Parquet files are loan-level / asset-level data extracted from XML exhibits.
提供机构:
DenyTranDFW
搜集汇总
数据集介绍
main_image_url
构建方式
在资产证券化(ABS)领域,精细化的资产层面数据是评估交易风险与定价的关键。该数据集聚焦于Santander Drive Auto Receivables Trust 2025-2(CIK编号2055936),通过系统性地抓取美国证券交易委员会(SEC)EDGAR系统中的ABS-EE备案文件构建而成。具体而言,数据源自15份XML展品(exhibits),每一份对应一个报告周期,从中提取出贷款级别(loan-level)或资产级别(asset-level)的结构化信息,并转换为Parquet格式文件。文件以“{accession_nodash}/{exhibit_name}.parquet”的命名规则组织,报告结束日期(reportingPeriodEndingDate)直接从XML的元数据字段中解析,确保了时间维度的准确性。整个数据集涵盖从2025年2月28日至2026年3月31日的14个报告周期,共计15份存档和15个Parquet文件,总大小达83.5 MB,为分析汽车贷款ABS的现金流表现提供了坚实的数据基础。
特点
该数据集最显著的特征在于其高度的颗粒化与结构化。每一个Parquet文件均包含逐笔贷款的详细属性,而非汇总统计,使得研究者能够深入探索资产池的异质性。数据的时间序列跨度超过一年,覆盖了从初始起息日到后续各月的完整表现期,便于追踪贷款的偿付、违约或提前偿还行为。此外,数据直接来源于官方的SEC ABS-EE备案,具有法律合规性和权威性,减少了因二手整理而引入的偏差。所有记录均关联唯一的CIK和accession号,支持与原始EDGAR文档的交叉验证。格式上采用高效的Parquet列式存储,兼顾了大数据处理的I/O性能与分析工具的兼容性,适合在Python、R或SQL环境中进行复杂的统计建模与机器学习任务。
使用方法
使用者可通过HuggingFace Datasets库直接加载该数据集,或通过下载Parquet文件进行本地化分析。推荐在Python环境中利用pandas或dask读取“.parquet”文件,以充分利用列式压缩带来的内存效率。由于数据已按报告周期分区,用户可基于“reportDate”字段进行时间序列切片,或通过“cik”与“accessionNumber”作为键关联其他财务档案。对于量化分析师,可针对贷款年龄(如平均剩余期限)、利率分布或逾期状态等字段构建风险模型;对于监管科技(RegTech)应用,可校验交易文件中披露的集中度指标。需要注意的是,部分原始字段可能为XML格式的编码值,建议先通过数据字典进行解码转换。整体上,该数据集为ABS市场参与者提供了一个透明的、可复制的资产表现研究基准。
背景与挑战
背景概述
在资产支持证券(ABS)领域,尤其是汽车贷款证券化市场中,资产级数据的透明度和标准化对于投资者风险评估、监管合规及市场定价至关重要。Santander Drive Auto Receivables Trust 2025-2 数据集由美国证券交易委员会(SEC)ABS-EE项目所采集,专注于桑坦德银行旗下的汽车贷款信托产品,涵盖2025年2月至2026年3月期间共15份资产级申报文件。该数据集以Parquet格式存储了从XML附件提取的逐笔贷款级数据,总容量达83.5 MB,旨在为金融数据分析、风险管理及机器学习模型提供结构化、精细化的金融基础资产信息。其发布推动了ABS市场的数据公开化进程,为学术界和业界研究汽车贷款违约预测、现金流建模及证券化结构优化提供了宝贵的实证基础。
当前挑战
该数据集面临的核心挑战包括:首先,ABS市场中单个资产池的贷款级数据通常涉及大量借款人隐私信息,如何在满足SEC监管披露要求的同时确保数据匿名化合规是一大难题。其次,构建过程中从非结构化XML附件中提取、清洗并标准化为Parquet格式的数据,需应对不同申报时期格式的异构性与不一致性,例如报告周期内日期字段的解析与对齐。此外,该数据集仅覆盖特定信托产品,数据时间跨度短(不足14个月),样本数量有限,可能难以支撑跨市场或长期趋势分析。最后,资产级数据的动态更新与历史版本追溯机制尚不完善,增加了后续研究中对数据一致性和可重复性的挑战。
常用场景
经典使用场景
在资产支持证券(ABS)领域,Santander Drive Auto Receivables Trust 2025-2 数据集的核心价值在于为研究者提供了一份精细到每笔车贷的资产层级(asset-level)数据。该数据集收录了从2025年2月至2026年3月共15个报送周期的XML附件内容,整理成Parquet格式,涵盖贷款余额、利率、剩余期限、地域分布等关键字段。经典使用场景包括构建贷款违约与提前还款的预测模型、分析底层资产池的异质性风险、以及评估证券化产品的信用分层结构。通过对逐笔贷款的现金流与风险特征进行解构,研究者能够更精确地模拟资产池的聚合表现,从而为ABS定价与风险评估提供微观层面的实证基础。
衍生相关工作
该数据集衍生了一系列具有影响力的经典工作,尤其集中在基于机器学习的违约预测与现金流建模方向。部分研究以此为基石,对比了逻辑回归、随机森林与梯度提升模型在贷款级别违约概率预测上的精度差异,并引入生存分析(Cox比例风险模型)刻画提前还款与违约的竞争风险。另一些工作则聚焦于结构化模型中相关性的建模,利用Copula函数捕捉资产池内贷款间的违约依赖,改进了传统信用评级方法对尾部风险的估计。此外,该数据集还支撑了对ABS定价异常的实证检验,例如分析分层利差是否充分补偿了底层资产的非线性风险。这些衍生研究共同丰富了对结构化金融产品风险定价的理论与实证体系。
数据集最近研究
最新研究方向
随着资产证券化(ABS)市场透明化与监管合规要求的日益严格,基于SEC ABS-EE(资产级数据电子化报送)框架的结构化数据集正在成为金融科技与风险管理领域的前沿研究对象。Santander Drive Auto Receivables Trust 2025-2数据集涵盖了从2025年2月至2026年3月的15个连续报告期,以Parquet格式存储了逾83.5 MB的贷款级资产明细数据,为研究汽车贷款池的履约表现、违约预测模型以及现金流结构化设计提供了高质量的微观基础。当前热点方向包括利用该数据集训练时序图神经网络来模拟资产池的信用迁移路径,结合宏观经济指标进行压力测试,以及通过资产级粒度数据分析发行人与评级机构之间的信息不对称问题。这一数据资源对推动ABS二级市场定价效率、监管科技(RegTech)应用以及后疫情时代汽车金融资产风险建模具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作