DenyTranDFW/AmeriCredit_Automobile_Receivables_Trust_2020_3_1829012
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DenyTranDFW/AmeriCredit_Automobile_Receivables_Trust_2020_3_1829012
下载链接
链接失效反馈官方服务:
资源简介:
AmeriCredit Automobile Receivables Trust 2020-3数据集包含SEC ABS-EE资产级别备案文件,针对CIK 1829012。数据集包含56个备案文件,每个文件转换为parquet格式,总大小为173.5 MB。报告期从2020-09-30至2025-04-30。数据从XML展品中提取,并按accession_nodash和exhibit_name组织。备案索引列出了所有备案的CIK、表格类型、accessionNumber、报告日期和URL。
The AmeriCredit Automobile Receivables Trust 2020-3 dataset comprises SEC ABS-EE asset-level filings for CIK 1829012. It includes 56 filings, each converted into parquet files, with a total size of 173.5 MB. The reporting period ranges from 2020-09-30 to 2025-04-30. The data is extracted from XML exhibits and organized by accession_nodash and exhibit_name. The filing index provides details of each filing, including CIK, form type, accessionNumber, report date, and URL.
提供机构:
DenyTranDFW
搜集汇总
数据集介绍

构建方式
在资产证券化(ABS)领域,AmeriCredit Automobile Receivables Trust 2020-3数据集源自美国证券交易委员会(SEC)的ABS-EE(Asset-Level Electronic Data)强制披露要求。该数据集聚焦于CIK编号为1829012的特定信托项目,系统性地收集了从2020年9月30日至2025年4月30日期间共计56份XML格式的资产层面申报文件。研究者将每份XML附件中的贷款级资产数据提取并转化为Parquet文件,按“受理号无横线/展品名称.parquet”的目录结构组织,同时依据XML中的报告期末日期(reportingPeriodEndingDate)统一标注时间戳。整个数据集涵盖56个Parquet文件,总存储容量约173.5 MB,为分析汽车贷款资产池的动态表现提供了结构化基础。
特点
该数据集的核心特征在于其时间序列连续性与资产颗粒度精细性。横跨近五年的月度申报记录揭示了一笔汽车贷款从发行到清偿的完整生命周期信息,包括贷款余额、利率、逾期状态、地理分布等关键变量。作为SEC监管框架下的官方结构化数据,其来源权威且格式统一,避免了传统非结构化文本解析的歧义。数据集的Parquet格式支持高效的列式存储与压缩,便于大规模批量处理与内存映射查询。此外,每份文件均与SEC EDGAR系统中对应的原始申报链接直接关联,确保了数据可追溯性与验证便利性,为量化金融模型验证与风险评估提供了可靠基石。
使用方法
研究人员可通过Python的pandas或PyArrow库直接读取Parquet文件,利用列式数据快速筛选特定时间窗口或贷款特征的子集。结合SEC EDGAR提供的原始申报URL,用户能交叉核对资产池的静态池信息,或构建基于时间序列的违约率、提前还款率等关键指标。数据分析流程中,建议首先按报告期索引合并各月文件,形成面板数据结构;随后利用贷款唯一标识进行纵向追踪,识别贷款循环状态的变化。该数据集亦适用于机器学习的预测任务,如训练分类模型判定贷款逾期概率,或作为资产估值模型的实参输入,通过对比模型输出与实际现金流来优化定价策略。
背景与挑战
背景概述
AmeriCredit Automobile Receivables Trust 2020-3数据集源自美国证券交易委员会(SEC)的资产支持证券(ABS)信息披露,由美国证监会监管框架下的资产管理机构创建,时间涵盖2020年9月至2025年4月。该数据集聚焦于汽车贷款资产支持证券的逐笔贷款级/资产级数据,旨在为金融风险评估与证券化市场研究提供精细化数据支撑。作为ABS-EE申报的典型范例,它揭示了汽车贷款池的信用表现与现金流动态,对理解次贷危机后结构化金融产品的透明度与监管合规具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于,传统ABS分析常受限于汇总数据,难以捕捉单笔贷款的违约风险与提前偿付模式,而本数据通过贷款级XML展品提取,实现了从底层资产到证券化结构的精准映射。构建过程中面临的挑战包括:需从SEC EDGAR系统下载56份XML申报文件并解析异构标签,统一不同报告期的数据格式;同时确保近五年内174MB数据在Parquet列式存储中的高效检索与时间序列一致性,避免因会计调整或申报修正导致的数据断层。
常用场景
经典使用场景
AmeriCredit Automobile Receivables Trust 2020-3 数据集以其详尽的资产层级信息,成为资产支持证券(ABS)领域内经典的研究样本。其核心用途在于支持对汽车贷款池的信用风险进行结构化分析,研究者可基于逐笔贷款的还款表现、逾期状态及提前偿付行为,构建精细化违约预测模型。该数据集跨越从2020年9月至2025年4月的完整报告周期,提供了丰富的纵向数据,为学者评估贷款组合在不同经济周期下的抗压能力提供了坚实基础。
解决学术问题
该数据集有效解决了资产证券化领域中长期存在的微观数据匮乏难题。学术研究中,其被广泛用于探究贷款级特征与证券化产品信用评级之间的内在关联,揭示贷款池异质性对分层证券现金流的传导机制。通过挖掘贷款月表现数据,研究者能够定量分析违约相关性与市场风险因子,推动了结构金融定价模型的实证验证。这一数据集的出现,增进了学术界对交易主体信息不对称以及道德风险问题的理解。
衍生相关工作
基于此数据集,衍生了一系列聚焦于机器学习方法在结构化金融中应用的前沿工作。部分研究将贷款还款序列数据转化为时间特征,训练梯度提升模型预测贷款拖欠概率,探索相比传统统计模型的性能提升。另有一些工作利用自然语言处理技术解析披露文件中的文本语义,尝试构建融合非结构化信息的综合评级框架。此外,该数据还催生了对不同ABS-EE文件格式标准化问题的比较研究,促进了自动化尽职调查工具的迭代发展。
以上内容由遇见数据集搜集并总结生成



