five

IPEDS Database

收藏
github2026-03-04 更新2026-03-06 收录
下载链接:
https://github.com/paulgp/ipeds-database
下载链接
链接失效反馈
官方服务:
资源简介:
IPEDS数据库是一个包含20多年美国高等教育数据的统一DuckDB数据库,涵盖1997年至2024年间美国所有高等教育机构的招生、入学、完成学业、学费、财政援助、毕业率、人员配置等方面的数据,共计27百万行数据,分布在23个表格中。

The IPEDS Database is a unified DuckDB database housing over two decades of U.S. higher education data. Covering the timeframe from 1997 to 2024, it includes data on admissions, enrollment, degree completion, tuition, financial aid, graduation rates, and staffing across all U.S. postsecondary institutions, with a total of 27 million rows distributed across 23 tables.
创建时间:
2026-03-03
原始信息汇总

IPEDS 数据库数据集概述

数据集基本信息

  • 数据集名称: IPEDS Database
  • 数据来源: 美国国家教育统计中心(NCES)的IPEDS(高等教育数据系统)
  • 数据源地址: https://nces.ed.gov/ipeds/datacenter/DataFiles.aspx
  • 数据覆盖时间: 1997年至2024年
  • 数据规模: 约27百万行数据,分布在23个表中,最终数据库文件约1 GB。
  • 数据格式: 经过整合的DuckDB数据库。
  • 数据许可: 数据属于公共领域(美国政府部门工作成果)。代码采用MIT许可证。

数据集内容与结构

核心数据表

数据集包含23个核心数据表,涵盖美国高等教育的各个方面:

表名 描述 覆盖年份 约行数
hd 机构目录(名称、地点、部门、卡内基分类) 2002–2024 162K
ic 机构特征 2000–2024 174K
ic_ay 学年学费与杂费 2000–2023 90K
ic_py 项目年学费与杂费 2000–2023 61K
adm 招生数据(申请者、录取者、入学人数、SAT/ACT分数) 2014–2023 21K
efia 12个月教学活动(全日制等效学生数) 2002–2024 155K
effy 12个月未重复计数总人数 2002–2024 841K
ef_a 按种族/民族和性别划分的秋季入学人数 2000–2023 2.8M
ef_b 按年龄划分的秋季入学人数 2000–2023 3.3M
ef_c 首次入学学生的居住地 2000–2023 1.4M
ef_d 保留率 2000–2023 146K
c_a 按CIP代码、种族、性别、学位级别划分的学位完成情况 2000–2024 6.6M
sfa 学生经济援助(助学金、贷款、净价格) 2002–2023 133K
gr 毕业率(150%正常时间) 1997–2023 1.2M
gr200 毕业率(200%正常时间) 2008–2023 88K
om 成果衡量(8年成果) 2015–2023 368K
eap 按职位划分的员工数据 2001–2023 8.7M
sal_is 教学人员薪资 2012–2023 195K
al 学术图书馆 2014–2023 39K
f1a 财务数据:GASB(公立机构)——收入、支出、捐赠基金、资产 2002–2023 42K
f2 财务数据:FASB(私立非营利机构)——收入、支出、捐赠基金 2001–2023 43K
f3 财务数据:营利性机构——收入、支出 2001–2023 59K
flags 调查回复状态标志 2004–2024 148K

内置视图

  • v_institutions: 每个机构最新的目录信息(去重后)。
  • v_admission_rates: 包含机构名称的录取率和入学率。
  • v_tuition_trends: 包含机构信息的州内/州外学费趋势。

关键字段说明

所有表均包含用于连接的 unitid(机构ID)和 year 列。_metadata 表提供了机器可读的清单。

部分关键表的字段处理如下:

  • hd:将IPEDS代码重命名为可读名称,如 institution_namestatesectorcontrollevelcarnegie_basichbculongitudelatitude
  • adm:重命名招生相关列,如 applicants_totaladmissions_totalenrolled_total 及其按性别细分的列,以及SAT/ACT分数百分位列。
  • c_a:关键字段包括 cipcode(6位CIP代码)、award_level(学位级别代码)。建议使用 COALESCE(ctotalt, crace24, crace15 + crace16) 来获取完整的学位授予总数时间序列。
  • 财务表f1a(公立)和 f2(私立非营利)包含捐赠基金数据,如 f1h01/f2h01(财年初值)、f1h02/f2h02(财年末值)等。

数据整合与处理要点

跨年模式变更处理

项目通过取所有年份列的并集来处理IPEDS调查工具的频繁变更,特定年份缺失的列用 NULL 填充。处理的关键变更包括:

  • 种族/民族分类(2008–2010):从5个类别切换为9个类别,新旧列均保留。
  • 学位授予总数列名变更:2000–2001年为 crace15 + crace16,2002–2007年为 crace24,2008年及以后为 ctotalt
  • 博士学位类型(2008+):2010年前使用 award_level = 9 表示所有博士学位。2008年后分为17(研究型)和18(专业实践型)。
  • 卡内基分类:列名多次变更,hd 表统一映射到 carnegie_basic
  • 招生数据:2014年起成为独立调查,此前数据在IC调查中。
  • 财务数据:按会计标准分为三个独立表:f1a(GASB,公立)、f2(FASB,私立非营利)、f3(营利性)。

缺失值处理

IPEDS使用的空白、.(SAS缺失值)和字母代码均被转换为 NULL。数值比例超过70%的列会自动转换为 DOUBLE 类型。

已知数据缺口

  • EF2001D(2001年保留率):从NCES返回HTTP 404错误。
  • IC_AY 2009–2012年:下载为0行的占位文件。
  • 2012年之前的薪资数据(SAL_IS 后缀):使用不同模式,目前暂未包含。

使用与查询

  • 数据库构建:运行 uv run python build_database.py 可自动下载数据(约720 MB)并构建数据库。
  • 查询工具:可使用任何DuckDB客户端(如命令行、Python库)进行SQL查询。
  • 示例查询与图表:项目提供 examples/query_examples.sql 文件包含10个即用型SQL查询示例,以及 examples/figures/ 目录下的R脚本可用于生成出版物质量的图表。

技术需求与项目结构

  • 运行环境:Python 3.11+,uv(或pip安装所需包),约2 GB磁盘空间,首次运行需网络连接。
  • 项目结构:核心构建脚本为 build_database.py,依赖项定义在 pyproject.toml。原始数据缓存于 data/raw/,生成的数据库为 ipeds.duckdb
搜集汇总
数据集介绍
构建方式
在高等教育研究领域,IPEDS数据库的构建过程体现了对大规模异构数据的高效整合。该数据集通过自动化脚本从美国国家教育统计中心(NCES)获取超过二十年的原始数据,涵盖数百个独立的CSV文件。构建过程中,系统处理了跨年度的模式差异,例如种族分类体系在2008至2010年间的重大调整,以及学位授予级别编码的历史变更。所有缺失值代码均被统一转换为NULL值,数值型字段自动转换为DOUBLE类型,最终生成包含23个关联表的DuckDB分析型数据库,总数据量约1GB,涵盖2700万行记录。
使用方法
研究者可通过多种技术路径访问这一标准化数据库。最直接的方式是使用DuckDB命令行工具连接数据库文件,执行标准SQL查询语句进行数据探索。对于编程分析场景,可通过Python的duckdb模块建立只读连接,实现程序化数据提取。数据库内置的元数据表(_metadata)提供了完整的字段索引,而示例查询文件则展示了包括院校录取率计算、捐赠基金排名、跨州生源分析在内的典型研究范式。针对特定研究需求,用户还可以通过参数化构建脚本选择性重建部分数据表,以提升开发效率。
背景与挑战
背景概述
IPEDS数据库作为美国高等教育领域最为权威的数据源,由美国国家教育统计中心(NCES)自1997年起持续收集与发布,其核心研究问题聚焦于全面追踪与量化美国高等教育机构的运营状况、学生群体特征及学术产出。该数据集覆盖了全美所有高等教育机构长达二十余年的历史记录,内容涉及招生录取、在校生规模、学位授予、学费标准、财政资助、毕业率以及教职工配置等多维度信息,为教育政策制定、学术研究及院校评估提供了不可或缺的实证基础。其影响力深远,不仅支撑了大量关于教育公平、资源分配与学术趋势的实证分析,亦成为衡量高等教育质量与效能的关键基准。
当前挑战
该数据集所应对的领域挑战在于,高等教育研究长期面临数据分散、口径不一与历时可比性不足的困境,IPEDS数据库通过标准化调查体系,系统性地解决了跨机构、跨年份的宏观教育指标整合难题。然而,在数据构建过程中,研究者需直面多重技术障碍:原始数据以数百个独立CSV文件形式存在,且调查表结构随年份频繁变更,命名规范与分类体系(如2008至2010年间种族/民族类别的重大调整)亦历经多次修订;此外,缺失值编码方式多样且缺乏文档说明,不同会计标准下的财务数据(如GASB、FASB)需分别处理,这些因素均对数据的清洗、对齐与长期序列的连贯性构成了显著挑战。
常用场景
经典使用场景
在高等教育研究领域,IPEDS数据库常被用于分析美国高校的长期发展趋势。研究者利用其跨越二十余年的时序数据,深入探究入学率、学费变化、学位授予结构以及学生群体多样性等核心议题。例如,通过整合招生、财务及学位完成情况等多维度表格,学者能够构建复杂的计量模型,揭示政策变动或经济周期对高等教育体系产生的系统性影响。
解决学术问题
该数据库有效解决了高等教育研究中数据碎片化与标准不统一的难题。它通过统一历年变化的调查表结构、种族分类与编码体系,为学者提供了连续、可比的面板数据。这使得研究能够准确追踪院校层面的长期变迁,例如评估平权法案对少数族裔入学的影响,或分析不同会计标准下私立与公立高校财务稳健性的差异,从而为教育政策评估与院校管理研究奠定了坚实的数据基础。
实际应用
在实际应用中,IPEDS数据库为高校管理、政府决策与商业咨询提供了关键支持。院校管理者可借此进行对标分析,优化招生策略与资源分配;州政府教育部门则依赖其数据监控本州高等教育绩效并制定资助方案。此外,媒体与排名机构利用其中的录取率、毕业率及财务数据编制大学排行榜,而金融机构在评估高校债券或捐赠基金投资表现时,也将其作为重要的参考依据。
数据集最近研究
最新研究方向
在高等教育研究领域,IPEDS数据库作为美国高等院校最全面的数据源,其最新研究方向聚焦于利用大规模时序数据进行教育公平性与机构绩效的深度分析。随着数据科学技术的演进,研究者正借助该数据集整合的二十余年跨年度统一架构,探索招生趋势、学位完成率、财务资源分配与学生群体多样性之间的复杂关联。热点议题包括少数族裔与低收入家庭学生的入学机会变化、不同院校类型间的资源不平等现象,以及高等教育政策对长期毕业成果的影响。这些研究不仅为学术决策提供实证依据,也深刻影响着公共教育资源的配置优化与教育公平政策的制定。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作