five

aaron-freedman/banking-concentration-data

收藏
Hugging Face2026-05-01 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aaron-freedman/banking-concentration-data
下载链接
链接失效反馈
官方服务:
资源简介:
银行集中度数据(1959-2025)是一个包含美国银行和储蓄机构监管文件的综合数据集,涵盖了1959年至2025年的商业银行资产负债表、收入报表以及储蓄机构财务数据。数据集还包括元数据和历史数据,来源包括联邦金融机构检查委员会(FFIEC)、联邦存款保险公司(FDIC)、联邦住房贷款银行委员会(FHLBB)和国家档案和记录管理局(NARA)。部分文件需要WRDS订阅才能完全访问。数据集提供了详细的变量定义和历史构造说明,适用于银行、金融和经济历史研究。

The Banking Concentration Data (1959–2025) is a comprehensive dataset of regulatory filings from US bank and thrift supervisors, covering commercial-bank balance sheets, income statements, and thrift financial data from 1959 to 2025. The dataset also includes metadata and historical data, sourced from authoritative entities like the Federal Financial Institutions Examination Council (FFIEC), Federal Deposit Insurance Corporation (FDIC), Federal Home Loan Bank Board (FHLBB), and National Archives and Records Administration (NARA). Some files require a WRDS subscription for full access. The dataset provides detailed variable definitions and historical construction notes, making it suitable for research in banking, finance, and economic history.
提供机构:
aaron-freedman
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集整合了1959年至2025年间美国三家银行与储蓄机构监管机构的监管申报文件,构建为一个可加载的Parquet与CSV文件集合。核心数据源自美国联邦金融机构检查委员会(FFIEC)的Call Reports,包含商业银行和储蓄机构的资产负债表及损益表,由纽约联邦储备银行整理并重新分发,共计约250万行、260余列变量。储蓄机构数据分别来自FDIC的BankFind API(1984年至今)和国家档案馆(NARA)的FHLBB BOSS系统(1967–1989年),列名均被统一为与CLV风格兼容的小写下划线格式。此外,数据集还包含结构变更事件、机构元数据及FIPS代码查找表,便于地理关联分析。
使用方法
用户可通过Hugging Face Hub的下载工具或Pandas库直接读取数据。例如,使用`huggingface-cli download`命令可完整下载所有文件至本地目录;或通过`pd.read_parquet`方法结合`hf://`协议远程加载单个Parquet文件,无需完整下载。对于需要WRDS订阅才能获取的三个额外文件(银行控股公司关系、实体属性、银行合并数据),数据集提供了辅助脚本`fetch_wrds_data.py`,研究者可凭WRDS账户运行该脚本自行生成,这些文件最终可从FFIEC的公开数据中重新获取。数据列名均采用小写下划线风格,与纽约联储的CLV命名规范一致,便于代码调用与变量匹配。
背景与挑战
背景概述
银行业集中度是衡量金融市场结构与系统性风险的核心指标,其演变轨迹深刻反映了监管政策、经济周期与技术进步的交织影响。由研究者Aaron Freedman于2020年代初发起的Banking Concentration Data(1959–2025)项目,系统整合了美国联邦储备银行、联邦存款保险公司及国家档案馆等多源监管报告,构建了一个覆盖1959年至2025年、包含超2.5百万条银行与储蓄机构资产负债表及利润表记录的大型时间序列数据集。该数据集依托纽约联邦储备银行Correia、Luck与Verner团队的清洗与标准化成果,旨在破解长期缺乏统一、机器可读的银行业集中度历史数据的困境,为量化金融、经济史及货币政策评估提供了坚实基石,已被应用于《Failing Banks》等顶级经济学期刊研究,成为该领域不可替代的实证工具。
当前挑战
该数据集的核心挑战在于解决美国银行业长期存在的结构化数据碎片化问题:跨越近七十年的监管报告涉及FFIEC、FDIC、FHLBB等多个机构,其报告格式、会计科目定义及监管口径随法规变迁频繁调整,如1989年FIRREA法案废除FHLBB导致储蓄机构数据来源断裂,需要精细的数据清洗与科目映射才能实现纵向可比。构建过程中最大障碍在于数据获取的法律与合同限制——沃顿研究数据服务(WRDS)的订阅协议禁止公开分发其处理的NIC实体关系与并购数据,迫使作者保留三份核心文件的专有性,仅提供辅助脚本供授权研究者再生,这限制了完全可复现性。此外,BOSS项目自1967–1989年的固定宽度ASCII记录需参考全美档案馆的晦涩字段文档逐行解析,而历史字典文件随CLV版本更迭长达100MB,对跨年代字段名称的标准化与版本控制构成持续挑战。
常用场景
经典使用场景
该数据集汇聚了美国银行业1959至2025年间海量监管申报数据,涵盖商业银行与储蓄机构资产负债表、利润表及机构变迁信息,为研究美国银行体系结构演变提供了前所未有的时间序列素材。经典使用场景集中在对银行集中度、存款市场份额、资产分布格局的长期追踪与量化分析,以及通过合并银行财务数据与机构事件记录,构建面板数据以考察银行间竞争态势、市场进入与退出动态。研究者可据此描绘银行业集中度的历史轨迹,揭示金融危机前后市场结构的断裂与重塑。
解决学术问题
该数据集精准回应了金融经济学中的一个核心难题:如何系统衡量美国银行业的市场集中度及其对金融稳定性的影响。由于美国银行业监管数据分散在不同机构且格式不统一,长期以来缺乏统一、可机读、覆盖跨周期的数据基础。该数据集通过整合FFIEC、纽约联储、FDIC及FHLBB等多源档案,填补了这一数据空白,使学者得以检验集中度与银行破产风险之间的因果关系,探究竞争程度对信贷供给和经济周期的传导机制,深化了对‘集中-稳定’与‘集中-脆弱’两种对立假说的实证理解。
实际应用
在实践层面,该数据集直接服务于金融监管机构的系统性风险评估与政策模拟。监管者可利用其中的长期资产负债表与机构变迁数据,动态监控银行业集中度的行进趋势,识别潜在的市场寡头化风险以及可能诱发系统性危机的过度集中区域。同时,该数据也为反垄断审查与市场准入政策提供了量化依据,帮助判定并购交易对市场竞争格局的实质性影响。商业银行与投资机构同样可借助这些历史结构化数据,进行标杆分析、战略规划以及压力测试,优化资本配置与地域扩张决策。
数据集最近研究
最新研究方向
该数据集汇聚了美国银行业自1959年至2025年间跨越半个多世纪的监管申报数据,为金融史与银行业集中度研究提供了弥足珍贵的纵向资料。当前前沿研究方向聚焦于运用该数据集追溯银行破产与并购事件中的资本结构演变,尤其结合新型机器学习方法对金融机构系统性风险进行回溯性诊断。该数据集与近期学术界对银行危机根源的实证研究热潮紧密呼应,例如Correia、Luck与Verner即将发表于《经济学季刊》的关于银行破产的研究,即以此数据为基石。其深远意义在于,通过构建跨度漫长、粒度精细的资产负债表与利润表序列,研究者得以跨越监管变革与经济周期,深入剖析市场集中度如何悄然重塑存款安全、信贷分配与金融韧性的底层逻辑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作