five

ris-one

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/kairusama/ris-one
下载链接
链接失效反馈
官方服务:
资源简介:
FDIC研究信息系统(RIS)数据集是美国联邦存款保险公司(FDIC)通过其FOIA页面公开的大规模数据集。该数据集包含银行结构和财务数据的关系数据库,涵盖所有FDIC保险机构。主要内容包括银行结构数据(机构名称、章程类型、位置、RSSD ID)、监管申报的财务报表数据、财务比率、银行失败或接受FDIC援助的数据以及结构性变化(合并、收购、章程转换)。数据集以季度CSV快照形式发布,覆盖2006年第一季度至今。数据集包含多个配置(CDI、FTS、MERG、SDI、SDI2),每个配置代表不同类型的数据。数据以Parquet格式存储,每个文件包含一个季度的数据,并带有报告日期列。数据集规模超过1TB,适用于金融、银行领域的研究和分析任务。
创建时间:
2026-05-06
原始信息汇总

数据集概述:FDIC Research Information System (RIS)

基本信息

  • 数据集名称:FDIC Research Information System (RIS)
  • 许可证:CC0-1.0(公共领域)
  • 标签:金融、银行、FDIC、研究信息系统、Parquet
  • 数据规模:>1TB

数据来源与内容

该数据集是美国联邦存款保险公司(FDIC)通过其FOIA页面公开的批量数据集,涵盖所有FDIC承保机构的银行结构和财务数据。主要包含以下内容:

  • 银行结构数据:机构名称、特许类型、地点、RSSD ID
  • Call Report数据:监管申报的财务报表
  • 财务比率:基于Call Report的性能指标
  • 失败/援助数据:FDIC援助或已倒闭的银行
  • 结构变化:合并、收购、特许转换

数据覆盖时间范围为2006年第一季度至今,每季度更新一次(FDIC在季度结束后约45天发布新数据)。

数据集配置与布局

数据集包含5个主要配置(表格),每个表格以Parquet格式存储,文件命名规则为<TABLE><YYMM>.parquet,并包含report_date列(ISO日期格式,如"2024-03-31")。

配置名 描述
CDI 合并财务数据(FDIC承保机构)
FTS 财务时间序列 / Call Report指标
MERG 合并与结构变化
SDI 存款摘要
SDI2 存款摘要(扩展版)

目录结构如下:

data/ CDI/ # 合并财务数据 FTS/ # 财务时间序列 MERG/ # 合并与结构变化 SDI/ # 存款摘要 SDI2/ # 存款摘要(扩展版) metadata/ ris_periods.json # 可用报告日期列表 ris_run_log_*.json # ETL执行记录(追加模式)

时间覆盖范围

日期范围 来源ZIP文件
2006-Q1 – 2015-Q4 ris0603-ris1512-csv.zip
2016-Q1 – 2023-Q4 ris1603-ris2312-csv.zip
2024-Q1 – 2025-Q4 ris2403-ris2512-csv.zip

已知限制

  • 无增量更新:每次ETL运行重新处理所有可用数据
  • CSV格式问题:FDIC的CSV文件中逗号被用作千位分隔符(已自动处理)
  • 模式漂移:FDIC可能在不同季度添加或删除列
  • 宽表限制:某些表格(如CDI、FTS)超过HF Data Studio的1000列查看限制

可复现性

每次ETL运行会生成metadata/ris_run_log_<timestamp>.json,记录以下信息:

  • 源ZIP URL
  • 处理的表格和报告日期
  • 每个文件的行/列数
  • 任何转换失败情况
  • 数据集仓库中的提交SHA
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自美国联邦存款保险公司(FDIC)的研究信息系统(RIS),该系统是涵盖所有FDIC承保金融机构的结构与财务数据的公开关系型数据库。构建者通过FDIC的FOIA页面获取其发布的季度CSV快照(覆盖2006年第一季度至今),利用ETL流程将原始CSV文件转换为Parquet格式,并按照数据表类型(如CDI、FTS等)分目录存储于HuggingFace数据集仓库中。每个Parquet文件对应一个季度的数据,包含报告日期字段,文件命名遵循特定规则以实现按季度索引,并通过递归通配符配置实现新旧布局兼容。
特点
该数据集的核心特点在于其结构化与完整性:提供了五类关键数据表,分别涵盖金融机构合并财务报表、时间序列指标、并购与结构变更、存款摘要及扩展信息,可支持多维度的金融分析。数据覆盖跨度近二十年,具备高频的季度更新机制,确保时效性。此外,所有数据以Parquet列式格式存储,显著提升了查询与压缩效率,并附有详细的ETL运行日志,保障了数据可复现性与溯源能力。
使用方法
用户可通过HuggingFace的datasets库便捷加载任意配置的子集,例如使用load_dataset('kairusama/ris-one', 'CDI', split='train')获取合并财务数据。支持流式加载以处理超大规模表格,也允许通过报告日期字段进行过滤以聚焦特定季度。高级用户可利用pandas的read_parquet函数直接访问远程Parquet文件路径,实现与现有数据分析管道的无缝集成。数据集还兼容基于日期范围的联合查询,便于纵向研究。
背景与挑战
背景概述
美国联邦存款保险公司(FDIC)研究信息系统(RIS)作为银行结构与财务数据的核心公共数据集,自2006年起每季度发布,由FDIC通过其信息自由法案页面公开分发。该数据集囊括所有FDIC承保机构的详尽信息,涵盖银行结构、监管申报财务报表、财务比率、破产与援助记录及结构性变革等关键维度,为金融监管研究、系统性风险分析与银行绩效评估提供了不可替代的基础数据源。由kairusama团队精心整理并转换为Parquet格式的RIS-One数据集,显著降低了大数据量下的访问门槛,其覆盖近二十年的海量时序数据,已成为金融经济学、宏观审慎监管及银行业实证研究领域广泛引用的权威资料,推动了相关领域量化分析方法的深入发展。
当前挑战
该数据集面临的首要挑战源于其源数据本身的复杂性:FDIC发布的CSV文件包含逗号分隔的千位分隔符,需特殊解析处理;且跨季度间存在模式漂移,即FDIC可能增删列字段,要求数据处理流程具备强健的适应性。其次,数据集规模庞大(超过1TB),传统的全量下载与加载方式效率低下,尤其在对长时序数据进行跨表关联分析时,对计算资源与存储提出严苛要求。此外,部分表格如CDI与FTS因其宽度超过Hugging Face Data Studio的1000列视图上限,限制了在线探索与可视化分析的便捷性。构建过程中,ETL流水线缺乏增量更新机制,每次运行均需重新处理全部历史数据,造成大量重复计算,增加了维护成本与更新延迟。
常用场景
经典使用场景
在金融监管与银行业研究领域,RIS-One数据集凭借其涵盖2006年至今的季度结构化数据,成为学术界剖析银行体系运行规律的核心资产。研究者多利用其CDI与FTS子表构建面板数据,追踪全美受保存款机构的资本充足率、资产质量与盈利指标变迁。该数据集的经典用法包括通过合并MERG表挖掘银行并购潮的结构性动因,或借助SDI表剖析存款分布的区域异质性。其Parquet格式支持高效流式加载与分布式计算,使得大规模时间序列分析在普通计算环境下成为可能,尤其适合跨周期金融稳定性研究。
解决学术问题
RIS-One数据集有效攻克了银行微观数据碎片化与获取成本高昂的学术瓶颈。它解决了多个核心研究问题:如何量化监管政策变化对银行风险承担行为的影响,如何从财务比率异常中识别系统性风险萌芽,以及如何刻画并购浪潮对行业集中度的重塑效应。通过提供统一的、跨季度且包含失败银行与救助案例的标准化数据,该数据集显著提升了金融中介理论实证检验的可重复性。其意义在于,它使得学者能够将宏观审慎监管的抽象命题,落地为基于全量机构微观行为的可验证推断,从而深化了对金融危机传染机制的理解。
衍生相关工作
围绕RIS-One数据集,学界与业界已衍生出多项标志性工作。在方法论层面,有研究基于其FTS表与MERG表,构建了银行并购后绩效衰减的因果推断框架,采用双重差分法识别整合失败的关键财务前置指标。在模型构建领域,利用CDI的广覆盖特性,研究者开发了针对小型社区银行的信贷违约预警系统,融合了LightGBM与时间注意力机制。此外,数据集的时序结构还催生了金融文本分析的突破,通过将季度财务数值与同期10-K文件的语言特征对齐,衍生出量化文本语调与财务比率联动关系的新范式。这些工作共同展现出该数据集在驱动金融AI与计算经济学交叉研究中的枢纽地位。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作