five

HMDA Database

收藏
github2026-04-08 更新2026-04-09 收录
下载链接:
https://github.com/truan/hmda_database
下载链接
链接失效反馈
官方服务:
资源简介:
构建一个统一的DuckDB数据库,包含40多年的《家庭抵押贷款披露法案》(HMDA)数据,总计6.85亿行。数据库包含四个时代特定的LAR表,一个聚合表(1981-1989年,银行/人口普查区级别)和三个申请级别表(1990-2006年、2007-2017年、2018-2024年),以及两个贷款人表。

Construct a unified DuckDB database containing over 40 years of Home Mortgage Disclosure Act (HMDA) data, totaling 685 million rows. The database includes four era-specific LAR tables, one aggregated table (1981–1989, bank/census tract level), three application-level tables (1990–2006, 2007–2017, 2018–2024), as well as two lender tables.
创建时间:
2026-04-08
原始信息汇总

HMDA Database 数据集概述

数据集基本信息

  • 数据集名称: HMDA Database
  • 数据来源: 整合自美国《房屋抵押贷款披露法》(HMDA)40多年的数据。
  • 构建工具: 使用DuckDB构建的标准化数据库。
  • 构建方法: 受Paul Goldsmith-Pinkham的IPEDS数据库管道启发,采用DuckDB原生CSV读取方式,直接从CSV流式传输到数据库,以降低内存使用。
  • 最终数据库: hmda.duckdb(约27 GB),包含约6.85亿行数据。

数据库表结构

数据库包含多个按时期划分的贷款申请登记表(LAR)和贷款机构表。

主要数据表

表名 描述 贷款机构标识符 年份范围 总行数(约)
lar_1981_1989 ICPSR LAR(银行/人口普查区汇总数据) respondent_id + agency_code 1981-1989 460万
lar_1990_2006 ICPSR LAR(申请级别数据) respondent_id + agency_code 1990-2006 3.686亿
lar_2007_2017 CFPB 传统 LAR(仅代码) respondent_id + agency_code 2007-2017 1.875亿
lar_2018_onward CFPB 快照 LAR LEI 2018-2024 1.241亿
lender_legacy 费城联储贷款机构文件(Avery File) HMPRID + CODE 1990-2017 23万
lender_current 费城联储贷款机构文件 LEI 2018至今 3.5万
lar (视图) 跨时期26个公共列的联合视图(仅申请级别) -- 1990至今 6.8亿

跨时期模式差异

特性 lar_1981_1989 lar_1990_2006 lar_2007_2017 lar_2018_onward
数据粒度 银行 x 人口普查区 申请级别 申请级别 申请级别
贷款机构ID respondent_id + agency_code respondent_id + agency_code respondent_id + agency_code LEI
关键列示例 num_govt, vol_conv 等 action_taken, loan_type 等 同1990-2006 derived_race, derived_sex 等
住宅类型筛选 不适用 property_type(整数,仅2004+) property_type(整数) derived_dwelling_category(字符串)
占用情况筛选 不适用 owner_occupancy(整数) owner_occupancy(整数) occupancy_type(整数)
种族/民族 不适用 applicant_race_1(代码) applicant_race_1(代码) derived_race(字符串)
列数 ~25 ~23 (1990-2003); ~36 (2004-2006) ~25 ~99

列名与单位标准化

  • 列名重命名:管道对不同年份间发生变化的列名进行了统一。
    • 例如:1990-2003年的 occupancy_type 重命名为 owner_occupancy;2007-2017年的 as_of_year 重命名为 activity_year
  • 贷款金额单位
    • lar_1990_2006lar_2007_2017 表中的 loan_amount_000s 单位为千美元
    • lar_2018_onward 表中的 loan_amount 单位为美元
    • 通过 lar 视图跨时期查询时,需进行单位换算(loan_amount_000s * 1000loan_amount / 1000)。

数据处理细节

  • 标签列处理(2007-2017):CFPB CSV文件中包含代码列和标签列(如 *_name, *_abbr)。除 county_name 外,所有标签列均被删除
  • 缺失值处理(2018+):CFPB快照数据中使用字符串 "NA""Exempt" 表示缺失/不适用值,在数据库中被转换为NULL。

数据来源

来源 URL 覆盖范围
ICPSR (Andrew Forrester) https://www.openicpsr.org/openicpsr/project/151921/version/V1/view LAR 1981-2006
NARA (官方平面文件) https://catalog.archives.gov/id/2456161 LAR 1981-2014
CFPB历史数据 https://www.consumerfinance.gov/data-research/hmda/historic-data/ LAR 2007-2017
CFPB快照(管道使用) https://ffiec.cfpb.gov/data-browser/ LAR 2018+(快照版本)
费城联储贷款机构文件 https://www.philadelphiafed.org/surveys-and-data/consumer-finance-data/home-mortgage-disclosure-act-lender-file 贷款机构 1990至今

使用与查询

常见样本筛选

筛选条件与美国消费者金融保护局(CFPB)在其历史数据页面上发布的三个过滤级别相匹配。

  1. 所有记录:无需 WHERE 子句。

  2. 所有发放的贷款: sql WHERE action_taken = 1

  3. 首次留置权、自住、单户住宅的发放贷款

    • 1990-2003WHERE action_taken = 1 AND owner_occupancy = 1
    • 2004-2006WHERE action_taken = 1 AND property_type = 1 AND lien_status = 1 AND owner_occupancy = 1
    • 2007-2017WHERE action_taken = 1 AND property_type = 1 AND lien_status = 1 AND owner_occupancy = 1
    • 2018+WHERE action_taken = 1 AND derived_dwelling_category = Single Family (1-4 Units):Site-Built AND lien_status = 1 AND occupancy_type = 1

数据导出(以Stata为例)

  • 推荐方法:通过Parquet格式导出,然后在Stata中使用 pq 包读取。
  • 备用方法:导出为CSV格式,使用Stata的 import delimited 命令读取。
  • 聚合导出:可编写SQL查询进行聚合计算后,将结果导出。

已知问题与限制

  • 2002-2006年ICPSR ZIP文件:存在错误的CRC头,构建脚本在Python的 zipfile 模块失败时会回退到更宽松的系统 unzip 命令。
  • 贷款机构文件链接:两个贷款机构表(legacy和current)尚未跨2018年的respondent_id到LEI的转换进行链接。可使用CFPB快照中的ARID2017-to-LEI参考表进行桥接。
  • CFPB数据版本(2018年起):CFPB发布三种数据集版本(快照、一年期、三年期),它们在错误更正捕获时间上有所不同。管道目前不支持在版本间进行选择。

项目构建与要求

  • 构建方式:可恢复式构建,支持按时期单独重建或使用 --fresh 参数完全重建。
  • 构建时间:完整重建约需20分钟(基于Apple M4 Pro / 48 GB RAM,已缓存下载)。
  • 存储需求
    • 原始下载数据:约231 GB。
    • 最终数据库:约27 GB。
  • 系统要求
    • Python 3.11+
    • uv(或使用pip安装duckdb, pandas, requests, openpyxl)
    • 需预先下载ICPSR数据(需要登录)
    • 约260 GB磁盘空间
    • 互联网连接(用于下载CFPB和费城联储数据)
搜集汇总
数据集介绍
main_image_url
构建方式
在金融监管与住房抵押贷款研究领域,HMDA数据库的构建采用了一种高效且可扩展的ETL流程。该流程通过DuckDB原生CSV读取技术,将超过四十年的HMDA原始数据流式加载至数据库中,避免了将大规模数据集整体载入内存,从而显著降低了内存消耗。对于1990年之后的申请级数据,这一方法尤为关键,确保了即便在单年数据量超过四千万行的情形下,系统资源仍能保持稳定。同时,对于早期的汇总数据及贷款机构文件,则谨慎地使用了Pandas进行处理,实现了数据处理效率与资源占用的优化平衡。整个构建过程具备可恢复性,支持按时代分段重建,并提供了详细的数据质量验证机制。
特点
HMDA数据库的核心特征在于其历时性的结构化整合与跨时代查询的便利性。该数据库将四十余年的贷款申请数据依据不同时代的模式差异,分别存储在四个独立的LAR表中,涵盖了从1981年至2024年的汇总与申请级记录,总行数超过六亿八千万。每个时代的数据表均保留了其原始的列结构与编码体系,例如贷款机构标识符从早期的respondent_id与agency_code组合过渡至2018年后的LEI标准。数据库还创建了一个跨时代的统一视图,提取了二十六个共有字段,便于进行长期趋势分析。此外,数据构建过程中对列名、缺失值表示及贷款金额单位进行了标准化处理,确保了跨表查询的一致性。
使用方法
为支持住房金融与公平借贷政策的深入研究,HMDA数据库提供了灵活的数据访问与导出途径。研究者可直接通过SQL对数据库进行查询,利用预定义的常见样本过滤器,例如筛选特定年份的首次留置权、自住型单户住宅的贷款发放记录,以复现监管机构的分析标准。对于需要进一步计量分析的用户,数据库支持将查询结果导出为Parquet或CSV格式,并可借助Stata等统计软件进行后续处理。此外,数据库还允许用户执行聚合查询,例如按贷款机构、县和年份统计贷款发放总额与申请数量,从而满足不同粒度研究需求。整个使用流程兼顾了交互式探索与批量分析的高效性。
背景与挑战
背景概述
HMDA数据库项目旨在构建一个整合了四十余年《住房抵押贷款披露法案》数据的标准化数据库,由研究者基于Paul Goldsmith-Pinkham的IPEDS数据库流水线模型开发。该数据集覆盖了自1981年以来的住房抵押贷款申请记录,核心研究问题聚焦于通过长期、大规模的贷款数据追踪美国住房金融市场的演变,分析贷款审批中的公平性、风险分布及政策影响。其创建为经济学、金融学及公共政策领域提供了宝贵的微观数据资源,极大地促进了关于信贷可获得性、种族与性别歧视以及区域经济差异的实证研究,成为评估住房金融体系健康与公平性的关键基准。
当前挑战
HMDA数据集在解决住房抵押贷款市场监测与公平性评估这一领域问题时,面临数据跨时代一致性的挑战,包括不同时期数据模式、贷款人标识符与变量编码体系的变迁。在构建过程中,挑战主要体现为处理多源异构数据的复杂性,例如整合ICPSR、CFPB及费城联邦储备银行等多个机构的数据源,需克服原始数据格式差异、缺失值处理以及大规模数据流式加载的技术瓶颈,同时确保在有限内存条件下高效处理超过6.85亿行记录,并维护跨时代变量的可比性与分析连贯性。
常用场景
经典使用场景
在住房金融与公平信贷研究领域,HMDA数据库作为美国住房抵押贷款披露法案的核心数据源,其经典应用场景聚焦于分析抵押贷款市场中的信贷分配模式与歧视现象。研究者常利用该数据库长达四十余年的贷款申请记录,通过统计建模探究借款人种族、收入、性别等特征与贷款审批结果之间的关联,从而评估金融机构是否存在系统性偏见。例如,通过对比不同人口统计群体在贷款批准率、利率水平及贷款额度上的差异,能够揭示潜在的“红线歧视”或信贷不平等问题,为政策制定提供实证依据。
实际应用
超越学术研究,HMDA数据库在监管合规、市场分析与公共政策领域具有广泛实际价值。监管机构如消费者金融保护局利用其监测金融机构的放贷行为,确保其符合公平借贷法规。社区发展组织通过分析本地贷款数据,识别服务不足的街区,并推动针对性投资。此外,金融科技公司与房地产分析师借助该数据评估区域市场风险、预测房价趋势及设计更包容的信贷产品。这些应用共同促进了透明、负责任的抵押贷款市场运作。
衍生相关工作
围绕HMDA数据库已衍生出大量经典研究,深刻塑造了相关学术领域。早期开创性工作如Munnell et al. (1996) 利用HMDA数据首次为抵押贷款种族歧视提供了系统性证据。后续研究如Bayer et al. (2018) 将贷款记录与税务数据结合,深入剖析了财富不平等与信贷获取的交互影响。在方法论上,该数据库催生了针对样本选择偏差和变量内生性的高级计量经济学技术。同时,诸如本仓库所实现的标准化数据库管道,本身即是数据工程领域的重要衍生工作,极大降低了后续研究的计算门槛。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作