ris-one

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/kairusama/ris-one

下载链接

链接失效反馈

官方服务：

资源简介：

FDIC研究信息系统（RIS）数据集是美国联邦存款保险公司（FDIC）通过其FOIA页面公开的大规模数据集。该数据集包含银行结构和财务数据的关系数据库，涵盖所有FDIC保险机构。主要内容包括银行结构数据（机构名称、章程类型、位置、RSSD ID）、监管申报的财务报表数据、财务比率、银行失败或接受FDIC援助的数据以及结构性变化（合并、收购、章程转换）。数据集以季度CSV快照形式发布，覆盖2006年第一季度至今。数据集包含多个配置（CDI、FTS、MERG、SDI、SDI2），每个配置代表不同类型的数据。数据以Parquet格式存储，每个文件包含一个季度的数据，并带有报告日期列。数据集规模超过1TB，适用于金融、银行领域的研究和分析任务。

创建时间：

2026-05-06

原始信息汇总

数据集概述：FDIC Research Information System (RIS)

基本信息

数据集名称：FDIC Research Information System (RIS)
许可证：CC0-1.0（公共领域）
标签：金融、银行、FDIC、研究信息系统、Parquet
数据规模：>1TB

数据来源与内容

该数据集是美国联邦存款保险公司（FDIC）通过其FOIA页面公开的批量数据集，涵盖所有FDIC承保机构的银行结构和财务数据。主要包含以下内容：

银行结构数据：机构名称、特许类型、地点、RSSD ID
Call Report数据：监管申报的财务报表
财务比率：基于Call Report的性能指标
失败/援助数据：FDIC援助或已倒闭的银行
结构变化：合并、收购、特许转换

数据覆盖时间范围为2006年第一季度至今，每季度更新一次（FDIC在季度结束后约45天发布新数据）。

数据集配置与布局

数据集包含5个主要配置（表格），每个表格以Parquet格式存储，文件命名规则为<TABLE><YYMM>.parquet，并包含report_date列（ISO日期格式，如"2024-03-31"）。

配置名	描述
`CDI`	合并财务数据（FDIC承保机构）
`FTS`	财务时间序列 / Call Report指标
`MERG`	合并与结构变化
`SDI`	存款摘要
`SDI2`	存款摘要（扩展版）

目录结构如下：

data/ CDI/ # 合并财务数据 FTS/ # 财务时间序列 MERG/ # 合并与结构变化 SDI/ # 存款摘要 SDI2/ # 存款摘要（扩展版） metadata/ ris_periods.json # 可用报告日期列表 ris_run_log_*.json # ETL执行记录（追加模式）

时间覆盖范围

日期范围	来源ZIP文件
2006-Q1 – 2015-Q4	`ris0603-ris1512-csv.zip`
2016-Q1 – 2023-Q4	`ris1603-ris2312-csv.zip`
2024-Q1 – 2025-Q4	`ris2403-ris2512-csv.zip`

已知限制

无增量更新：每次ETL运行重新处理所有可用数据
CSV格式问题：FDIC的CSV文件中逗号被用作千位分隔符（已自动处理）
模式漂移：FDIC可能在不同季度添加或删除列
宽表限制：某些表格（如CDI、FTS）超过HF Data Studio的1000列查看限制

可复现性

每次ETL运行会生成metadata/ris_run_log_<timestamp>.json，记录以下信息：

源ZIP URL
处理的表格和报告日期
每个文件的行/列数
任何转换失败情况
数据集仓库中的提交SHA

搜集汇总

数据集介绍

构建方式

该数据集源自美国联邦存款保险公司（FDIC）的研究信息系统（RIS），该系统是涵盖所有FDIC承保金融机构的结构与财务数据的公开关系型数据库。构建者通过FDIC的FOIA页面获取其发布的季度CSV快照（覆盖2006年第一季度至今），利用ETL流程将原始CSV文件转换为Parquet格式，并按照数据表类型（如CDI、FTS等）分目录存储于HuggingFace数据集仓库中。每个Parquet文件对应一个季度的数据，包含报告日期字段，文件命名遵循特定规则以实现按季度索引，并通过递归通配符配置实现新旧布局兼容。

特点

该数据集的核心特点在于其结构化与完整性：提供了五类关键数据表，分别涵盖金融机构合并财务报表、时间序列指标、并购与结构变更、存款摘要及扩展信息，可支持多维度的金融分析。数据覆盖跨度近二十年，具备高频的季度更新机制，确保时效性。此外，所有数据以Parquet列式格式存储，显著提升了查询与压缩效率，并附有详细的ETL运行日志，保障了数据可复现性与溯源能力。

使用方法

用户可通过HuggingFace的datasets库便捷加载任意配置的子集，例如使用load_dataset('kairusama/ris-one', 'CDI', split='train')获取合并财务数据。支持流式加载以处理超大规模表格，也允许通过报告日期字段进行过滤以聚焦特定季度。高级用户可利用pandas的read_parquet函数直接访问远程Parquet文件路径，实现与现有数据分析管道的无缝集成。数据集还兼容基于日期范围的联合查询，便于纵向研究。

背景与挑战

背景概述

美国联邦存款保险公司（FDIC）研究信息系统（RIS）作为银行结构与财务数据的核心公共数据集，自2006年起每季度发布，由FDIC通过其信息自由法案页面公开分发。该数据集囊括所有FDIC承保机构的详尽信息，涵盖银行结构、监管申报财务报表、财务比率、破产与援助记录及结构性变革等关键维度，为金融监管研究、系统性风险分析与银行绩效评估提供了不可替代的基础数据源。由kairusama团队精心整理并转换为Parquet格式的RIS-One数据集，显著降低了大数据量下的访问门槛，其覆盖近二十年的海量时序数据，已成为金融经济学、宏观审慎监管及银行业实证研究领域广泛引用的权威资料，推动了相关领域量化分析方法的深入发展。

当前挑战

该数据集面临的首要挑战源于其源数据本身的复杂性：FDIC发布的CSV文件包含逗号分隔的千位分隔符，需特殊解析处理；且跨季度间存在模式漂移，即FDIC可能增删列字段，要求数据处理流程具备强健的适应性。其次，数据集规模庞大（超过1TB），传统的全量下载与加载方式效率低下，尤其在对长时序数据进行跨表关联分析时，对计算资源与存储提出严苛要求。此外，部分表格如CDI与FTS因其宽度超过Hugging Face Data Studio的1000列视图上限，限制了在线探索与可视化分析的便捷性。构建过程中，ETL流水线缺乏增量更新机制，每次运行均需重新处理全部历史数据，造成大量重复计算，增加了维护成本与更新延迟。

常用场景

经典使用场景

在金融监管与银行业研究领域，RIS-One数据集凭借其涵盖2006年至今的季度结构化数据，成为学术界剖析银行体系运行规律的核心资产。研究者多利用其CDI与FTS子表构建面板数据，追踪全美受保存款机构的资本充足率、资产质量与盈利指标变迁。该数据集的经典用法包括通过合并MERG表挖掘银行并购潮的结构性动因，或借助SDI表剖析存款分布的区域异质性。其Parquet格式支持高效流式加载与分布式计算，使得大规模时间序列分析在普通计算环境下成为可能，尤其适合跨周期金融稳定性研究。

解决学术问题

RIS-One数据集有效攻克了银行微观数据碎片化与获取成本高昂的学术瓶颈。它解决了多个核心研究问题：如何量化监管政策变化对银行风险承担行为的影响，如何从财务比率异常中识别系统性风险萌芽，以及如何刻画并购浪潮对行业集中度的重塑效应。通过提供统一的、跨季度且包含失败银行与救助案例的标准化数据，该数据集显著提升了金融中介理论实证检验的可重复性。其意义在于，它使得学者能够将宏观审慎监管的抽象命题，落地为基于全量机构微观行为的可验证推断，从而深化了对金融危机传染机制的理解。

衍生相关工作

围绕RIS-One数据集，学界与业界已衍生出多项标志性工作。在方法论层面，有研究基于其FTS表与MERG表，构建了银行并购后绩效衰减的因果推断框架，采用双重差分法识别整合失败的关键财务前置指标。在模型构建领域，利用CDI的广覆盖特性，研究者开发了针对小型社区银行的信贷违约预警系统，融合了LightGBM与时间注意力机制。此外，数据集的时序结构还催生了金融文本分析的突破，通过将季度财务数值与同期10-K文件的语言特征对齐，衍生出量化文本语调与财务比率联动关系的新范式。这些工作共同展现出该数据集在驱动金融AI与计算经济学交叉研究中的枢纽地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集