FedScope Employment Data

github2025-06-25 更新2025-06-27 收录

下载链接：

https://github.com/abigailhaddad/fedscope_employment

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含1998-2024年的140+百万联邦员工记录，处理自官方的FedScope Employment Cube数据集。包括72个季度快照，每季度1.7-2.3百万员工，52个字段，包括人口统计、工作详情和薪酬等信息。

This repository encompasses over 140 million federal employee records from 1998 to 2024, processed from the official FedScope Employment Cube dataset. It includes 72 quarterly snapshots, with approximately 1.7 to 2.3 million employees per quarter, across 52 fields, covering demographic information, job details, and salary data among others.

创建时间：

2025-06-20

原始信息汇总

FedScope Employment 数据集概述

数据集基本信息

数据来源：美国人事管理办公室(OPM) FedScope Employment Cube
记录数量：1.4亿+联邦雇员记录(1998-2024)
时间范围：1998年3月至2024年9月
数据格式：Parquet文件(72个季度快照)
许可证类型：公共领域(美国政府工作)

数据内容

时间覆盖：
- 1998-2008：仅9月(年度快照)
- 2009年：9月、12月
- 2010-2024：完整季度覆盖(3月、6月、9月、12月，截至2024年9月)
字段信息：
- 52个字段(包含人口统计、工作详情和薪酬信息)
- 已连接查找表便于使用
每季度记录：170-230万雇员记录

数据结构

主表：FACTDATA_*.TXT(雇员记录)
查找表：
- 年龄等级(DTagelvl.txt)
- 机构(DTagy.txt)
- 教育水平(DTedlvl.txt)
- 通用计划等级(DTgsegrd.txt)
- 位置(DTloc.txt)
- 职业(DTocc.txt)
- PATCO类别(DTpatco.txt)
- 薪酬计划(DTpp.txt，2017年起)
- 薪酬计划和等级(DTppgrd.txt)
- 薪酬水平(DTsallvl.txt)
- STEM职业(DTstemocc.txt)
- 监督状态(DTsuper.txt)
- 任命类型(DTtoa.txt)
- 工作安排(DTwrksch.txt)
- 工作状态(DTwkstat.txt)

获取方式

直接下载： python import pandas as pd df = pd.read_parquet(https://github.com/abigailhaddad/fedscope_employment/raw/main/fedscope_data/parquet/fedscope_employment_September_2024.parquet)
克隆仓库： bash git clone https://github.com/abigailhaddad/fedscope_employment.git

使用示例

按机构统计雇员数量： python agency_counts = df.groupby(agysubt)[employment].apply(lambda x: sum(int(i) for i in x)).sort_values(ascending=False)
按教育水平计算平均薪资： python df[salary_numeric] = df[salary].apply(lambda x: int(float(x)) if x not in [None, nan, *****, ] and pd.notna(x) else None) salary_by_edu = df.groupby(edlvlt)[salary_numeric].mean()

仓库结构

fedscope_employment/ ├── fedscope_data/ │ ├── raw/ # 72个季度ZIP原始文件 │ ├── extracted/ # 提取的数据文件 │ └── parquet/ # 72个季度Parquet文件 ├── main.py # 主处理脚本 ├── rename_and_extract.py # ZIP文件处理脚本 ├── text_to_parquet.py # TXT转Parquet脚本 ├── validate_parquet.py # 验证脚本 └── documentation_pdfs/ # 季度数据集PDF文档

注意事项

数值字段(如employment和salary)使用字符串类型存储
建议使用以t结尾的描述字段进行分析(包含人类可读值)

搜集汇总

数据集介绍

构建方式

FedScope Employment Data数据集源自美国人事管理办公室（OPM）的FedScope Employment Cube官方数据，经过系统化处理整合而成。该数据集涵盖了1998年至2024年间超过1.4亿条联邦雇员记录，通过自动化流程将原始ZIP文件转换为高效的Parquet格式。数据处理流程包括ZIP文件解压、文本文件解析、查找表关联以及数据验证等关键步骤，确保数据完整性与一致性。每个季度的数据均包含主事实表和14个查找表，通过标准化的代码转换机制实现了人机可读字段的完美映射。

使用方法

使用者可通过两种高效方式获取数据：直接下载Parquet文件或克隆整个仓库。数据集针对Python生态进行了深度优化，借助Pandas和DuckDB等工具可实现灵活分析。典型应用场景包括按机构统计雇员规模、分析教育水平与薪酬关系、追踪劳动力动态变化等。对于跨年度分析，推荐使用DuckDB创建联合视图实现多文件查询。数据使用需注意数值字段的字符串特性，示例代码提供了完善的类型转换方案。数据集配套的examples.py文件展示了从基础统计到复杂分析的完整范例，为研究者提供了即用型解决方案。

背景与挑战

背景概述

FedScope Employment Data作为一个非官方的联邦雇员数据集，由独立研究者Abigail Haddad基于美国人事管理办公室（OPM）的FedScope Employment Cube原始数据整理而成，涵盖了1998年至2024年间超过1.4亿条联邦雇员记录。该数据集以季度为单位，收录了72个时间节点的雇员信息，每季度包含约170万至230万条记录，涉及52个字段，包括人口统计、职位详情及薪酬等关键维度。通过将原始数据转换为Parquet格式并整合查询表，该数据集为研究公共部门人力资源管理、薪酬差异及劳动力动态提供了重要基础。其跨26年的纵向覆盖，使得研究者能够深入分析联邦政府雇员结构的演变趋势及政策影响。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，如何准确解析联邦雇员薪酬与职位的非线性关系成为关键难点，原始数据中数值型字段（如薪资）以字符串形式存储且包含特殊字符（如'*****'），需设计鲁棒的清洗逻辑；此外，跨部门、跨时期的劳动力流动性分析受限于1998-2008年间仅有的年度快照，导致早期数据时间分辨率不足。在构建技术层面，原始ZIP文件包含异构的文本格式与编码标准，需开发自动化管道处理72个季度的不一致文件结构；同时，3.7GB的庞大规模对存储效率提出要求，促使采用列式存储优化查询性能。

常用场景

经典使用场景

FedScope Employment Data作为涵盖1998至2024年间1.4亿条联邦雇员记录的权威数据集，其经典应用场景聚焦于政府人力资源管理的纵向研究。通过72个季度的连续快照，研究者能够追踪联邦机构人员结构、薪酬分布及教育背景的历时性变化，尤其适用于分析美国公务员体系在金融危机、政府换届等关键节点的弹性变化。数据中52个结构化字段为构建劳动力动态预测模型提供了多维度特征空间。

解决学术问题

该数据集有效解决了公共管理领域三大核心问题：一是量化评估联邦政府多元化雇佣政策的实施效果，通过交叉分析种族、性别字段与职位晋升的关系；二是揭示薪酬差异的体制性成因，教育水平与薪资的关联性分析为人力资本理论提供了实证基础；三是构建公务员流失预警模型，基于历史任职周期数据识别高风险离职群体。其26年的时间跨度为制度变迁研究提供了难得的准自然实验场。

实际应用

在实际应用层面，联邦机构人力资源部门依托该数据优化编制配置，通过分析不同季度各机构的雇员饱和度调整招聘计划。政策制定者利用STEM岗位的时空分布特征制定区域性科技人才引进策略。薪酬分析师结合通货膨胀参数，建立经调整的薪资公平性评估体系。数据中工作状态与雇佣类型的细分字段，更成为外包服务供应商竞标政府项目时评估人力成本的关键依据。

数据集最近研究