five

banking-concentration-data

收藏
Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/aaron-freedman/banking-concentration-data
下载链接
链接失效反馈
官方服务:
资源简介:
Banking Concentration Data (1959–2025) 是一个包含美国银行和储蓄机构监管申报数据的开源数据集,适用于表格回归和分类任务。数据集整合了来自三个美国银行监管机构的申报文件,涵盖1959年至2025年的数据,以parquet和CSV格式提供。主要文件包括商业银行和储蓄机构的资产负债表(约250万行,190列)、收入报表(71列)、储蓄机构财务快照(68,144行,23列)以及储蓄机构历史事件记录。数据集还包含变量定义和历史构造说明的Excel文件。数据来源于联邦金融机构检查委员会(FFIEC)、联邦存款保险公司(FDIC)和联邦住房贷款银行委员会(FHLBB)的公开数据。部分文件需要通过Wharton Research Data Services(WRDS)订阅获取。数据集适用于银行集中度分析、经济历史研究和金融监管合规等应用场景。

Banking Concentration Data (1959–2025) is an open-source dataset containing regulatory filing data for U.S. banks and savings institutions, suitable for tabular regression and classification tasks. The dataset integrates filing documents from three U.S. banking regulatory agencies, covering data from 1959 to 2025, provided in parquet and CSV formats. Key files include balance sheets for commercial banks and savings institutions (approximately 2.5 million rows, 190 columns), income statements (71 columns), financial snapshots of savings institutions (68,144 rows, 23 columns), and historical event records of savings institutions. The dataset also includes Excel files with variable definitions and historical construction notes. Data is sourced from publicly available data of the Federal Financial Institutions Examination Council (FFIEC), Federal Deposit Insurance Corporation (FDIC), and Federal Home Loan Bank Board (FHLBB). Some files require a subscription through Wharton Research Data Services (WRDS). The dataset is suitable for applications such as banking concentration analysis, economic history research, and financial regulatory compliance.
创建时间:
2026-04-16
原始信息汇总

Banking Concentration Data (1959–2025) 数据集概述

数据集基本信息

  • 数据集名称: Banking Concentration Data (1959–2025)
  • 创建者/维护者: aaron-freedman
  • 托管平台: Hugging Face
  • 数据集地址: https://huggingface.co/datasets/aaron-freedman/banking-concentration-data
  • 许可证: 混合许可证(主要包含纽约联邦储备银行使用条款和美国联邦公共领域数据)
  • 主要许可证链接: https://www.newyorkfed.org/privacy/termsofuse
  • 任务类别: 表格回归、表格分类
  • 数据语言: 英语
  • 标签: 银行业、金融、经济史、监管报告、美国、联邦储备系统
  • 数据规模: 10M < n < 100M
  • 数据格式: Parquet、CSV、Excel、HTML

数据集内容与文件

该数据集整合了1959年至2025年美国银行和储蓄机构的监管申报文件,包含以下文件:

文件 大小 内容描述 原始来源
call_reports_bs.parquet 397 MB 商业银行和储蓄机构的资产负债表。约250万行,每行对应一个(id_rssd, date),包含190个资产、负债、存款和贷款构成变量列。 FFIEC监管报告(FFIEC表格010, 011, 012, 030, 031, 032, 033, 034)
call_reports_is.parquet 108 MB 商业银行利润表,行结构与_bs文件相同,包含71个收入和费用列。 FFIEC监管报告(利润表表格)
historical_call_data_dictionary.xlsx 12 MB 上述两个监管报告文件的变量定义和历史构建说明。 纽约联邦储备银行(CLV版本)
CLV_README.html 25 KB 纽约联邦储备银行提供的关于监管报告版本的README描述文件。 纽约联邦储备银行(CLV版本)
thrift_financials.parquet 3.5 MB 储蓄机构(储蓄银行、储蓄机构、储蓄与贷款协会)第四季度财务快照,覆盖1984–2025年。共68,144行,23列。列名已统一为与CLV资产负债表风格匹配的小写下划线格式。 FDIC BankFind API
thrift_history.csv 12 MB 结构变更事件:储蓄机构合并、转换、倒闭和章程转换记录。 FDIC研究与分析批量文件
thrift_institutions.csv 874 KB 储蓄机构元数据(证书编号、章程代理机构、地点、状态)。 FDIC研究与分析批量文件
boss_thrifts.parquet 2 MB FHLBB/FSLIC承保的储蓄机构快照,覆盖1967–1989年。共90,235行,25列。仅包含存款数据(BOSS不报告资产/权益/负债)。 FHLBB监管申报文件,存档于NARA
boss_fips_lookup.csv 106 KB 城市/州到5位FIPS县代码的对照表,供BOSS解析器使用。 作者根据美国人口普查地理数据编制

数据来源与归属

商业银行资产负债表与利润表 (1959–2025)

  • 原始来源: 联邦金融机构检查委员会(FFIEC)监管报告——美国每家商业银行向联邦银行监管机构提交的季度状况和收入监管报告。
  • 清理与再分发机构: 纽约联邦储备银行,数据集名为“商业银行资产负债表与利润表:1959年至2025年”(https://www.newyorkfed.org/research/banking_research/balance-sheets-income-statements)。
  • 处理流程开发者: Sergio Correia, Stephan Luck, 和 Emil Verner(合称“CLV”)。
  • 引用要求: 使用这些文件时,请引用相关论文:Correia, S. A., Luck, S., & Verner, E. (2026). Failing Banks. The Quarterly Journal of Economics, 141(1), 147–204. https://doi.org/10.1093/qje/qjaf044
  • 再分发声明: 内容受纽约联邦储备银行使用条款约束(https://www.newyorkfed.org/privacy/termsofuse),需注明归属。

储蓄机构数据 (1984年至今)

  • 原始来源: 联邦存款保险公司(FDIC)——BankFind API以及研究与分析批量下载文件(https://api.fdic.gov/banks 和 https://www.fdic.gov/resources/data-tools/)。
  • 数据性质: 美国联邦公共领域数据,无需认证即可获取。

储蓄机构数据 (1967–1989)

  • 原始来源: 联邦住房贷款银行委员会(FHLBB)监管申报文件,由联邦储蓄与贷款保险公司(FSLIC)承保的储蓄机构提交。
  • 存档机构: 国家档案和记录管理局(NARA)记录组195(联邦住房贷款银行委员会记录),系列635816——分支机构调查系统(BOSS)。可从s3.amazonaws.com/NARAprodstorage/lz/electronic-records/rg-195/BOSS/公开下载。
  • 数据性质: 美国联邦公共领域数据。

辅助对照表

  • 数据性质: 基础的人口普查地理标识符为美国联邦公共领域数据。

使用说明

下载全部数据

bash pip install huggingface_hub huggingface-cli download aaron-freedman/banking-concentration-data --local-dir ./raw --repo-type dataset

不下载直接加载单个文件(示例)

python import pandas as pd df = pd.read_parquet("hf://datasets/aaron-freedman/banking-concentration-data/call_reports_bs.parquet")

重新生成WRDS来源的文件(需订阅)

如果拥有WRDS订阅,可克隆代码仓库并运行脚本以生成三个未包含在本数据集中的文件(bhc_relationships_1965_2024.csv, entity_attributes.csv, bank_mergers_1965_2024.csv)。代码仓库地址:https://github.com/aaron-freedman/banking-concentration。

重要说明

  • 完整的预处理管道还需要三个来自沃顿研究数据服务(WRDS)的文件,但由于订阅协议限制公开再分发,未包含在本数据集中。
  • 拥有WRDS访问权限的研究人员可以使用代码仓库中的辅助脚本重新生成这些文件。
  • 对基础数据未作修改,仅对thrift_financials.parquet文件的列名进行了重命名以匹配CLV风格,数值未更改。
  • BOSS Parquet文件是根据代码仓库中nara-boss/CLAUDE.md文档记录的记录布局,从原始的38个固定宽度ASCII文件派生而来。
搜集汇总
数据集介绍
main_image_url
构建方式
在金融监管与历史研究领域,数据整合的深度与广度直接决定了分析的有效性。本数据集通过系统性地汇集来自美国三大银行及储蓄机构监管机构——联邦金融机构检查委员会(FFIEC)、联邦存款保险公司(FDIC)以及联邦住房贷款银行委员会(FHLBB)的监管申报文件,构建了一个跨越1959年至2025年的统一时间序列。核心数据源自FFIEC的Call Reports季度报表,涵盖了商业银行与储蓄机构的资产负债表与损益表,并经过纽约联邦储备银行的清洗与标准化处理。同时,数据集补充了FDIC提供的储蓄机构财务快照与结构变迁记录,以及从国家档案与记录管理局(NARA)获取的早期BOSS系统存档数据,确保了历史覆盖的连续性。
特点
该数据集以其时间跨度长、来源权威且结构统一而著称,为研究美国银行业集中度与经济历史提供了坚实基础。其显著特点在于整合了多源监管数据,包括近2.5百万行的商业银行资产负债表与损益表记录,以及储蓄机构从1967年至今的财务与事件数据。数据字段经过精心协调,例如将FDIC的字段名转换为小写下划线格式,以与CLV数据集风格保持一致,便于跨文件合并分析。此外,数据集提供了详尽的数据字典与原始说明文档,确保了变量定义与历史背景的透明度,同时明确标注了因订阅限制而未包含的WRDS衍生文件,为专业研究者指明了完整数据重构的路径。
使用方法
对于希望利用本数据集进行实证分析的研究者,可通过Hugging Face Hub直接下载全部文件至本地目录,或使用pandas库远程读取Parquet格式的核心文件,无需完整下载即可快速探索数据结构。数据集支持典型的表格回归与分类任务,适用于银行业集中度测算、风险建模或历史事件研究。若研究者拥有WRDS订阅权限,可借助项目代码库中的辅助脚本重新生成缺失的关系与并购文件,以构建更完整的机构网络图谱。使用纽约联邦储备银行来源的数据时,需遵循其使用条款进行引注,而源自FDIC、NARA等机构的公共领域数据则可自由使用,确保了学术合规性。
背景与挑战
背景概述
在金融经济学与银行监管研究领域,长期、系统性的银行财务数据对于分析市场结构、风险传导与政策效应至关重要。Banking Concentration Data(1959–2025)由研究者Aaron Freedman整合并发布于2025年,其核心数据源自纽约联邦储备银行(Federal Reserve Bank of New York)主导的“商业银行资产负债表与损益表(1959–2025)”项目,该项目由Sergio Correia、Stephan Luck与Emil Verner等学者为研究银行破产问题而构建。数据集融合了美国联邦金融机构检查委员会(FFIEC)的季度监管报告、联邦存款保险公司(FDIC)的储蓄机构数据以及历史性的联邦住房贷款银行委员会(FHLBB)档案,覆盖了超过半个世纪的美国银行与储蓄机构财务信息。该资源为学术界与政策制定者提供了分析银行业集中度、金融稳定性及历史演变的统一基础,显著提升了跨时期、跨机构比较研究的可行性与精度。
当前挑战
该数据集致力于解决银行业集中度与金融稳定性研究中的核心挑战,即如何整合多源、异构且时间跨度极长的监管数据以支持严谨的实证分析。具体而言,构建过程中面临多重困难:其一,原始数据来源分散且格式不一,涉及FFIEC呼叫报告、FDIC公开档案及历史归档的FHLBB固定宽度文件,需要进行复杂的解析、清洗与变量对齐;其二,部分关键数据(如银行控股公司关系与并购记录)依赖于受限的Wharton Research Data Services(WRDS)订阅,限制了数据的完全公开可复现性;其三,历史数据存在定义变迁与报告标准更迭,要求细致的变量映射与跨时期一致性维护。这些挑战凸显了在金融历史研究中构建标准化、可扩展数据基础设施的复杂性。
常用场景
经典使用场景
在金融经济学与银行业研究领域,Banking Concentration Data数据集为分析美国银行业市场结构演变提供了关键实证基础。其经典使用场景集中于探究银行集中度与金融稳定性的关联,学者们常利用该数据集中的资产负债表与收入报表,构建赫芬达尔指数或市场份额指标,以量化不同时期、不同地域的银行业竞争程度,进而评估监管政策对市场效率的影响。
解决学术问题
该数据集有效解决了金融史与宏观经济学中若干核心学术问题,特别是关于银行失败机制、金融危机传导路径以及监管制度变迁的长期效应。通过整合1959年至2025年跨越多个监管周期的面板数据,研究者能够识别银行脆弱性的早期预警信号,检验资本充足率与风险承担之间的因果关系,从而深化对系统性风险生成机理的理解,并为政策设计提供经验证据。
衍生相关工作
围绕该数据集衍生的经典学术工作包括Correia、Luck与Verner(2026)关于银行失败决定因素的实证研究,其成果发表于《经济学季刊》。此外,该数据支撑了多项对存款保险制度、兼并收购活动以及货币政策传导异质性的分析,促进了金融中介理论与实证方法的融合,为后续研究提供了标准化数据基础与可复现的分析框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作