ubpr-one
收藏Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/kairusama/ubpr-one
下载链接
链接失效反馈官方服务:
资源简介:
UBPR One数据集是FFIEC UBPR(统一银行绩效报告)批量数据的分析就绪快照,由配套的HF Space生成。该数据集通过手动ETL流程创建,包括从FFIEC中央数据存储库下载数据、连接发布的成员表、合并重复的UBPR代码、推断分析友好的列类型,并输出整理后的结果。数据源自FFIEC公共领域,采用cc0-1.0许可证。数据集布局包括按报告周期整理的规范parquet快照和元数据运行日志。分析时需注意:Reporting Period存储为带类型的日期时间列,ID RSSD保留为字符串标识符,数值型UBPR字段保守推断,混合内容列保留为字符串。由于规范表宽度超过Hugging Face数据集查看器的1000列限制,浏览器预览可能失败,但parquet文件有效。
The UBPR One dataset is an analysis-ready snapshot of FFIEC UBPR (Uniform Bank Performance Report) bulk data, generated by a companion HF Space. This dataset is created through a manual ETL process that includes downloading data from the FFIEC central repository, joining published member tables, merging duplicate UBPR codes, inferring analysis-friendly column types, and outputting cleaned results. The data originates from the FFIEC public domain and uses the cc0-1.0 license. The dataset layout includes canonical parquet snapshots organized by reporting period and metadata run logs. Analytical notes: Reporting Period is stored as a typed datetime column, ID RSSD remains as a string identifier, numeric UBPR fields are conservatively inferred, and mixed-content columns remain as strings. Due to the canonical table width exceeding Hugging Face dataset viewers 1000-column limit, browser preview may fail but parquet files are valid.
创建时间:
2026-04-24
原始信息汇总
UBPR One 数据集概述
基本信息
- 数据集名称:UBPR One
- 许可证:CC0-1.0(公共领域)
- 标签:金融、FFIEC、UBPR、银行业
- 来源:FFIEC Central Data Repository 批量下载服务(https://cdr.ffiec.gov/public/PWS/DownloadBulkData.aspx)
数据集描述
UBPR One 是 FFIEC(联邦金融机构检查委员会)统一银行绩效报告(UBPR) 批量数据的分析就绪快照。该数据集通过配套的 Hugging Face Space 运行手动ETL流程生成:下载 FFIEC CDR 批量文件,按 Reporting Period 和 ID RSSD 连接已发布的成员表,在数值一致时合并重复的 UBPR 代码,推断分析友好的列类型,并将处理后的结果输出至此。
数据文件结构
data/ ubpr_<period>.parquet # 特定时期的规范快照(Parquet格式) metadata/ run_log_<timestamp>.json # ETL运行记录(包含来源、连接诊断、类型和状态)
数据分析注意事项
- Reporting Period:存储为带类型的日期时间列
- ID RSSD:保留为字符串标识符
- 数字字段:保守推断类型;混合内容的列保留为字符串
- 宽度限制:规范表列数超过Hugging Face数据集查看器1000列的限制,因此浏览器预览可能失败,但Parquet文件本身有效
数据更新
打开配套的 Hugging Face Space,点击 Run ETL 即可重新生成数据。Space 每次执行会添加新的运行日志,并为所选时期重写规范 Parquet 文件,确保每个报告期始终只有一个分析就绪文件。
搜集汇总
数据集介绍

构建方式
在金融监管与银行业分析领域,标准化的银行绩效数据是进行量化研究的基础。UBPR One 数据集源自美国联邦金融机构检查委员会(FFIEC)中央数据存储库的批量下载服务,由配套的Hugging Face Space执行手动ETL流程构建而成。该流程首先下载FFIEC CDR批量文件,随后依据报告期(Reporting Period)和机构标识符(ID RSSD)将已发布的成员表进行关联,在数值一致时合并重复的UBPR代码,推断适合分析的数据列类型,最终将精心整理的数据集输出到本仓库。
特点
本数据集以分析就绪的快照形式呈现,每个报告期对应一个规范的Parquet文件,存放在data目录下,而元数据目录则包含每次ETL运行的日志记录。其关键特点包括:报告期以带类型的日期时间列存储,ID RSSD保留为字符串标识符,数值型UBPR字段经过保守推断以避免类型错误,混合内容列则保持字符串格式。需要注意的是,规范表列数超过Hugging Face数据集查看器的1000列上限,因此浏览器预览可能失败,但这并不影响Parquet文件的完整可用性。
使用方法
使用者可直接加载data目录下对应报告期的Parquet文件进行分析,例如通过Pandas的read_parquet函数读取。如需更新数据,只需打开配套的Hugging Face Space并点击运行ETL按钮,系统便会新增一次运行日志并重写所选报告期的规范Parquet文件,确保每个报告期始终只有一个分析就绪的文件。由于数据来源于FFIEC且属于美国公共领域,本数据集采用cc0-1.0许可,用户可自由使用、复制和修改,但需注意浏览器预览可能因列数过多而失败,建议直接通过程序化方式访问Parquet文件。
背景与挑战
背景概述
UBPR One数据集由与HuggingFace Space协同的自动化ETL流程创建,旨在提供经过清洗与整合的FFIEC(联邦金融机构检查委员会)统一银行绩效报告分析就绪快照。该数据集聚焦于美国银行业财务指标的标准化与可重复使用,解决了原始CDR批量数据格式杂乱、表间关联复杂等痛点。研究人员可基于清洗后的Parquet文件直接开展银行绩效评估、风险建模等量化分析,其时间戳字段和结构化列类型显著降低了数据预处理成本。数据集采用CC0-1.0许可,来源于美国公共领域数据,为银行业学术研究提供开放、可靠的基准数据源。
当前挑战
该数据集面临的挑战包括:1)原始FFIEC数据存在多源异构问题,需整合不同格式的成员表并通过`Reporting Period`与`ID RSSD`关键字段进行关联,期间需处理重复UBPR代码的冲突合并;2)构建过程中需保守推断数值字段类型,对混合内容列保留字符串格式,避免数据类型误判导致分析失真;3)由于规范表宽度超过HuggingFace数据查看器1000列限制,导致浏览器预览失败,需用户直接下载Parquet文件验证数据完整性。
常用场景
经典使用场景
UBPR One数据集的核心使用场景在于对银行业金融机构进行统一的绩效评估与分析。作为基于FFIEC统一银行绩效报告(UBPR)的精心整理版本,该数据集通过清洗、合并和类型推断等预处理步骤,为研究人员提供了直接可用的分析就绪型快照。研究者可以便捷地利用该数据集进行银行盈利能力、资本充足率、资产质量及流动性等关键指标的跨时期与跨机构对比分析,从而揭示银行业整体运行态势与个体差异。
实际应用
在实际金融监管与风险管理领域,UBPR One数据集展现出广泛的应用价值。监管机构可借助该数据快速生成银行经营状况的统计摘要与异常预警,提升监管科技(RegTech)的智能化水平。商业银行内部亦能利用该数据集进行同业对标分析,识别自身在成本控制、贷款组合或资本管理方面的相对优势与短板,从而优化经营策略。此外,金融科技公司可将该数据集成至风险评估模型,为信贷决策或投资分析提供坚实的数据支撑。
衍生相关工作
基于UBPR One数据集,学术界与业界已衍生出一系列经典工作。例如,研究人员利用该数据集构建了银行破产预测模型,通过机器学习算法捕捉财务指标的微妙变化,显著提前了风险识别窗口。另有工作聚焦于银行并购绩效研究,借助UBPR One的长期面板数据,实证检验了并购活动对银行效率与市场竞争结构的动态影响。此外,该数据集还被用于开发银行业景气指数,为宏观经济政策制定提供了高频、多维的观测工具。
以上内容由遇见数据集搜集并总结生成



