kairusama/ubpr-one
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/kairusama/ubpr-one
下载链接
链接失效反馈官方服务:
资源简介:
UBPR One数据集是FFIEC UBPR(统一银行绩效报告)批量数据的分析就绪快照,由配套的Hugging Face Space生成。每个报告期都作为一个规范的宽表parquet文件加上一组标记的窄视图提供,适合希望从下载到绘图只需五分钟的研究人员。UBPR由联邦金融机构检查委员会(FFIEC)发布,源自季度Call Report(状况和收入综合报告,表格FFIEC 031/041/051)。Call Report是原始的资产负债表和收入提交,而UBPR是其比率覆盖:数千个衍生指标——盈利能力、资本充足率、信贷质量、流动性——在美国每家受保商业银行和储蓄机构的基础上计算。该数据集保留了这些代码,并将它们的简短和长人类标签作为独立的JSON字典和每个字段的parquet元数据携带,因此您无需记住代码。
UBPR One is a collection of analysis-ready snapshots of FFIEC UBPR (Uniform Bank Performance Report) bulk data, produced by a companion Hugging Face Space. Each reporting period is delivered as one canonical wide parquet plus a set of labeled narrow views tailored for researchers who want to get from download to plot in five minutes. The UBPR is published by the Federal Financial Institutions Examination Council (FFIEC) and is derived from the quarterly Call Report (Consolidated Reports of Condition and Income, forms FFIEC 031/041/051). Where the Call Report is the raw balance-sheet and income submission, UBPR is its ratio overlay: thousands of derived metrics — profitability, capital adequacy, credit quality, liquidity — computed on a common basis across every insured U.S. commercial bank and savings institution. This dataset preserves those codes and carries their short and long human labels as both a standalone JSON dictionary and per-field parquet metadata, so you never need the codes memorized.
提供机构:
kairusama
搜集汇总
数据集介绍

构建方式
UBPR One数据集源自美国联邦金融机构检查委员会(FFIEC)发布的统一银行绩效报告,该报告基于季度《统一银行绩效报告》(即FFIEC 031/041/051表格)衍生出数千项涵盖盈利能力、资本充足率、信贷质量及流动性等维度的比率指标。数据集的构建通过Hugging Face Space中封装的ETL流程实现:对每个报告周期,从FFIEC中央数据仓库的公开批量下载页面获取原始档案,经清理、合并后生成一个包含2800余列的宽格式Parquet文件(保留原始UBPR代码),同时依据预定义的标签映射(如收益、资本、资产质量、流动性)提取出四个窄视图,并以Parquet文件形式按周期存储。每个运行版本都会记录源归档、列覆盖及诊断信息的运行日志,确保可溯源性。
特点
该数据集最显著的特点在于其分析就绪的形态:每个报告周期均以单一宽表Parquet及四个专题窄视图形式交付,研究者可跳过繁琐的数据预处理直接开展分析。所有UBPR代码均携带嵌入Parquet元数据的简短与详细人工标签,并通过独立的JSON字典提供全局查询,免去记忆代码的负担。数据集采用Hugging Face Datasets的多配置设计,默认加载收益视图,同时支持资本、资产质量、流动性等视图的灵活切换。此外,元数据目录下的periods.json文件提供了跨周期的索引清单,便于构建时间序列研究。CC0-1.0许可协议确保了无限制的学术与监管应用。
使用方法
用户可通过Hugging Face Datasets库快速加载数据:默认配置为收益视图,调用load_dataset('kairusama/ubpr-one')即可返回包含所有周期的训练集,转换为pandas DataFrame后可直接探索。如需切换专题,只需指定配置名称,如load_dataset('kairusama/ubpr-one', 'capital')。对于宽表分析,可使用规范配置load_dataset('kairusama/ubpr-one', 'canonical')获取完整列集,或通过huggingface_hub下载单周期Parquet文件后,用pandas或DuckDB进行流式查询。UBPR代码的标签解析有两种等价途径:从Parquet文件的元数据中提取,或从仓库级的column_dictionary.json字典中按代码索引。研究者还可借助periods.json清单构建跨周期时间序列,并通过运行日志中的commit SHA确保研究可复现。
背景与挑战
背景概述
UBPR One数据集由研究者kairusama于近年创建,旨在解决美国联邦金融机构检查委员会(FFIEC)发布的统一银行绩效报告(UBPR)数据难以直接用于学术与监管研究的问题。UBPR源自每家受保存款机构每季度提交的《统一银行绩效报告》(Call Report),通过计算数千项衍生比率指标(如盈利能力、资本充足率、资产质量、流动性等),为银行健康状况评估提供了规范化的度量框架。该数据集以HuggingFace平台为依托,将原始UBPR批量数据转换为分析友好的Parquet格式,囊括自2024年起的多个报告期,并提供宽表与主题子视图(如收益、资本、资产质量、流动性)两类接口。其影响力体现在:为银行同业基准对比、CAMELS评级代理变量构建、银行倒闭预测、系统性风险与集中度研究,以及压力测试分析等前沿课题提供了即刻可用的标准化数据基础设施,显著降低了金融监管领域的数据预处理门槛。
当前挑战
UBPR One数据集所解决的领域核心挑战在于,FFIEC原始UBPR数据虽为公共领域信息,但以分散的批量文件形式发布,包含超2800列原始代码字段且缺乏统一标签,导致研究者需耗费大量精力进行数据清洗、跨表关联与代码映射。该数据集通过自动化ETL流程将各报告期内的资产、负债、收益等子表以`Reporting Period`和`ID RSSD`为键完美连接,并预置了JSON字典形式的代码-标签映射,极大提升了数据可用性。然而,构建过程中面临两大棘手问题:其一,FFIEC可能默默重述历史UBPR数据,数据集未保留历史修订版本,研究者若需回溯特定时间点的原始记录必须追踪提交于元数据日志中的Git提交SHA。其二,FFIEC代码存在更名、合并或弃用的风险,尽管数据集的运行日志记录了各主题视图中的代码覆盖情况,但跨时间序列的代码一致性审计仍依赖用户主动查验日志。此外,原始宽表超出HuggingFace Data Studio的1000列预览限制,虽可通过窄视图缓解,但交互式探索的便利性仍受影响。
常用场景
经典使用场景
UBPR One数据集的核心价值在于为金融监管与学术研究提供了统一、结构化且可直接用于分析的美国商业银行财务比率快照。其最经典的用途是作为同行组标杆分析的基础,研究者可基于任意自定义的同业定义,利用数千项标准化比率指标(如盈利能力、资本充足率、资产质量、流动性等)进行横向比较,快速揭示不同银行间的相对表现差异。
实际应用
在实际应用层面,UBPR One为金融监管机构的政策评估与行业风险监测提供了可复用的数据基础设施。监管分析师可利用其预定义的专题视图(如盈利视图、资本视图)快速产出行业健康度的可视化报告,追踪关键指标的时间演变趋势。商业银行内部的风险管理部门亦能借助此数据集进行自身与同业的精细化对标,识别潜在的风险敞口与运营优化空间。
衍生相关工作
该数据集衍生了一系列紧贴其数据结构的工具与工作流程。其配套的Hugging Face Space提供了可复现的ETL流程与回填命令行工具,使得研究者能够按需按周期重建数据快照。附带的字段元数据字典和跨期索引文件(periods.json)支持开发轻量级的查询接口,例如结合DuckDB进行流式SQL分析而不需本地化存储完整文件,这些实践为后续金融时间序列数据集的标准化发布树立了可参照的技术范式。
以上内容由遇见数据集搜集并总结生成



