ris-one
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/kairusama/ris-one
下载链接
链接失效反馈官方服务:
资源简介:
FDIC研究信息系统(RIS)数据集是美国联邦存款保险公司(FDIC)通过其FOIA页面公开的大规模数据集。该数据集包含银行结构和财务数据的关系数据库,涵盖所有FDIC保险机构。主要内容包括银行结构数据(机构名称、章程类型、位置、RSSD ID)、监管申报的财务报表数据、财务比率、银行失败或接受FDIC援助的数据以及结构性变化(合并、收购、章程转换)。数据集以季度CSV快照形式发布,覆盖2006年第一季度至今。数据集包含多个配置(CDI、FTS、MERG、SDI、SDI2),每个配置代表不同类型的数据。数据以Parquet格式存储,每个文件包含一个季度的数据,并带有报告日期列。数据集规模超过1TB,适用于金融、银行领域的研究和分析任务。
创建时间:
2026-05-06
原始信息汇总
数据集概述:FDIC Research Information System (RIS)
基本信息
- 数据集名称:FDIC Research Information System (RIS)
- 许可证:CC0-1.0(公共领域)
- 标签:金融、银行、FDIC、研究信息系统、Parquet
- 数据规模:>1TB
数据来源与内容
该数据集是美国联邦存款保险公司(FDIC)通过其FOIA页面公开的批量数据集,涵盖所有FDIC承保机构的银行结构和财务数据。主要包含以下内容:
- 银行结构数据:机构名称、特许类型、地点、RSSD ID
- Call Report数据:监管申报的财务报表
- 财务比率:基于Call Report的性能指标
- 失败/援助数据:FDIC援助或已倒闭的银行
- 结构变化:合并、收购、特许转换
数据覆盖时间范围为2006年第一季度至今,每季度更新一次(FDIC在季度结束后约45天发布新数据)。
数据集配置与布局
数据集包含5个主要配置(表格),每个表格以Parquet格式存储,文件命名规则为<TABLE><YYMM>.parquet,并包含report_date列(ISO日期格式,如"2024-03-31")。
| 配置名 | 描述 |
|---|---|
CDI |
合并财务数据(FDIC承保机构) |
FTS |
财务时间序列 / Call Report指标 |
MERG |
合并与结构变化 |
SDI |
存款摘要 |
SDI2 |
存款摘要(扩展版) |
目录结构如下:
data/ CDI/ # 合并财务数据 FTS/ # 财务时间序列 MERG/ # 合并与结构变化 SDI/ # 存款摘要 SDI2/ # 存款摘要(扩展版) metadata/ ris_periods.json # 可用报告日期列表 ris_run_log_*.json # ETL执行记录(追加模式)
时间覆盖范围
| 日期范围 | 来源ZIP文件 |
|---|---|
| 2006-Q1 – 2015-Q4 | ris0603-ris1512-csv.zip |
| 2016-Q1 – 2023-Q4 | ris1603-ris2312-csv.zip |
| 2024-Q1 – 2025-Q4 | ris2403-ris2512-csv.zip |
已知限制
- 无增量更新:每次ETL运行重新处理所有可用数据
- CSV格式问题:FDIC的CSV文件中逗号被用作千位分隔符(已自动处理)
- 模式漂移:FDIC可能在不同季度添加或删除列
- 宽表限制:某些表格(如CDI、FTS)超过HF Data Studio的1000列查看限制
可复现性
每次ETL运行会生成metadata/ris_run_log_<timestamp>.json,记录以下信息:
- 源ZIP URL
- 处理的表格和报告日期
- 每个文件的行/列数
- 任何转换失败情况
- 数据集仓库中的提交SHA
搜集汇总
数据集介绍

构建方式
该数据集源自美国联邦存款保险公司(FDIC)的研究信息系统(RIS),该系统是涵盖所有FDIC承保金融机构的结构与财务数据的公开关系型数据库。构建者通过FDIC的FOIA页面获取其发布的季度CSV快照(覆盖2006年第一季度至今),利用ETL流程将原始CSV文件转换为Parquet格式,并按照数据表类型(如CDI、FTS等)分目录存储于HuggingFace数据集仓库中。每个Parquet文件对应一个季度的数据,包含报告日期字段,文件命名遵循特定规则以实现按季度索引,并通过递归通配符配置实现新旧布局兼容。
特点
该数据集的核心特点在于其结构化与完整性:提供了五类关键数据表,分别涵盖金融机构合并财务报表、时间序列指标、并购与结构变更、存款摘要及扩展信息,可支持多维度的金融分析。数据覆盖跨度近二十年,具备高频的季度更新机制,确保时效性。此外,所有数据以Parquet列式格式存储,显著提升了查询与压缩效率,并附有详细的ETL运行日志,保障了数据可复现性与溯源能力。
使用方法
用户可通过HuggingFace的datasets库便捷加载任意配置的子集,例如使用load_dataset('kairusama/ris-one', 'CDI', split='train')获取合并财务数据。支持流式加载以处理超大规模表格,也允许通过报告日期字段进行过滤以聚焦特定季度。高级用户可利用pandas的read_parquet函数直接访问远程Parquet文件路径,实现与现有数据分析管道的无缝集成。数据集还兼容基于日期范围的联合查询,便于纵向研究。
背景与挑战
背景概述
美国联邦存款保险公司(FDIC)研究信息系统(RIS)作为银行结构与财务数据的核心公共数据集,自2006年起每季度发布,由FDIC通过其信息自由法案页面公开分发。该数据集囊括所有FDIC承保机构的详尽信息,涵盖银行结构、监管申报财务报表、财务比率、破产与援助记录及结构性变革等关键维度,为金融监管研究、系统性风险分析与银行绩效评估提供了不可替代的基础数据源。由kairusama团队精心整理并转换为Parquet格式的RIS-One数据集,显著降低了大数据量下的访问门槛,其覆盖近二十年的海量时序数据,已成为金融经济学、宏观审慎监管及银行业实证研究领域广泛引用的权威资料,推动了相关领域量化分析方法的深入发展。
当前挑战
该数据集面临的首要挑战源于其源数据本身的复杂性:FDIC发布的CSV文件包含逗号分隔的千位分隔符,需特殊解析处理;且跨季度间存在模式漂移,即FDIC可能增删列字段,要求数据处理流程具备强健的适应性。其次,数据集规模庞大(超过1TB),传统的全量下载与加载方式效率低下,尤其在对长时序数据进行跨表关联分析时,对计算资源与存储提出严苛要求。此外,部分表格如CDI与FTS因其宽度超过Hugging Face Data Studio的1000列视图上限,限制了在线探索与可视化分析的便捷性。构建过程中,ETL流水线缺乏增量更新机制,每次运行均需重新处理全部历史数据,造成大量重复计算,增加了维护成本与更新延迟。
常用场景
经典使用场景
在金融监管与银行业研究领域,RIS-One数据集凭借其涵盖2006年至今的季度结构化数据,成为学术界剖析银行体系运行规律的核心资产。研究者多利用其CDI与FTS子表构建面板数据,追踪全美受保存款机构的资本充足率、资产质量与盈利指标变迁。该数据集的经典用法包括通过合并MERG表挖掘银行并购潮的结构性动因,或借助SDI表剖析存款分布的区域异质性。其Parquet格式支持高效流式加载与分布式计算,使得大规模时间序列分析在普通计算环境下成为可能,尤其适合跨周期金融稳定性研究。
解决学术问题
RIS-One数据集有效攻克了银行微观数据碎片化与获取成本高昂的学术瓶颈。它解决了多个核心研究问题:如何量化监管政策变化对银行风险承担行为的影响,如何从财务比率异常中识别系统性风险萌芽,以及如何刻画并购浪潮对行业集中度的重塑效应。通过提供统一的、跨季度且包含失败银行与救助案例的标准化数据,该数据集显著提升了金融中介理论实证检验的可重复性。其意义在于,它使得学者能够将宏观审慎监管的抽象命题,落地为基于全量机构微观行为的可验证推断,从而深化了对金融危机传染机制的理解。
衍生相关工作
围绕RIS-One数据集,学界与业界已衍生出多项标志性工作。在方法论层面,有研究基于其FTS表与MERG表,构建了银行并购后绩效衰减的因果推断框架,采用双重差分法识别整合失败的关键财务前置指标。在模型构建领域,利用CDI的广覆盖特性,研究者开发了针对小型社区银行的信贷违约预警系统,融合了LightGBM与时间注意力机制。此外,数据集的时序结构还催生了金融文本分析的突破,通过将季度财务数值与同期10-K文件的语言特征对齐,衍生出量化文本语调与财务比率联动关系的新范式。这些工作共同展现出该数据集在驱动金融AI与计算经济学交叉研究中的枢纽地位。
以上内容由遇见数据集搜集并总结生成



