white_house_salaries
收藏github2023-01-14 更新2024-05-31 收录
下载链接:
https://github.com/storydrivendatasets/white_house_salaries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2012年至2019年白宫员工的工资数据,数据经过整理和处理,提供了多种格式如CSV和SQLite3,并包含了一些额外的便利字段,如总统名称和员工姓名解析。
This dataset encompasses salary data of White House employees from 2012 to 2019. The data has been meticulously organized and processed, offering various formats such as CSV and SQLite3. Additionally, it includes several convenient fields, such as the president's name and parsed employee names.
创建时间:
2019-11-22
原始信息汇总
数据集概述
数据集名称
- White House Salaries: 2012 to 2019
数据集内容
- 包含2012年至2019年白宫员工的工资数据。
数据格式
- CSV: data/wrangled/white_house_salaries.csv
- SQLite3: data/white_house_salaries.sqlite
- Google Sheets: 链接
数据处理
- 数据集已进行初步整理,增加了一些便利字段,如
president(便于按政府进行数据透视)和name字段解析为last_name,first_name,middle_name,suffix。
数据统计摘要
- 年份 | 员工数 | 平均工资 | 总工资
- 2012 | 468 | 80,843 | 37,834,589
- 2013 | 460 | 82,303 | 37,859,780
- 2014 | 456 | 82,844 | 37,776,925
- 2015 | 474 | 84,864 | 40,225,595
- 2016 | 472 | 84,223 | 39,753,551
- 2017 | 377 | 94,872 | 35,766,744
- 2018 | 374 | 94,246 | 35,248,194
- 2019 | 418 | 98,766 | 41,284,244
- 总计 | 3,499 | 87,382 | 305,749,622
数据使用示例
- 提供了一个SQL查询示例,用于分析2017年至2019年的工资变化和员工流动情况。
数据来源
- 原始数据文件保存在data/collected目录中,详细的数据来源列表可在data_inventory.csv中找到。
数据处理脚本
- 数据收集、转换、合并和整理的Python脚本位于whsa/目录下。
数据质量声明
- 数据未经严格验证,使用时需自行承担风险。
搜集汇总
数据集介绍

构建方式
该数据集通过收集2012年至2019年间白宫员工的薪资数据构建而成。数据来源包括CSV、PDF和ZIP格式的原始文件,经过Python脚本的收集、转换和融合处理,最终统一为CSV和SQLite3格式。特别地,PDF文件通过`pdftotext -layout`工具进行文本提取,并进行了手动清理以确保数据准确性。数据集还添加了额外的便利字段,如`president`和分解后的姓名字段,以便于分析。
使用方法
用户可以通过下载SQLite3文件并使用SQLite GUI工具(如DB Browser for SQLite)进行查询和分析。数据集支持复杂的SQL查询,例如比较不同年份的薪资变化和员工流动情况。用户还可以通过Python脚本对数据进行进一步处理和分析。数据集的使用方法灵活多样,适合数据科学家、研究人员和政策分析师进行深入研究和可视化分析。
背景与挑战
背景概述
White House Salaries数据集由Story-Driven Datasets团队于2019年创建,旨在整合并公开2012年至2019年间白宫员工的薪资数据。该数据集的核心研究问题在于揭示白宫员工薪资的变化趋势、人员流动情况以及不同政府任期内的薪资政策差异。通过提供详细的薪资信息,该数据集为研究人员、政策分析者和公众提供了一个透明化的工具,用于分析政府机构的薪资结构和人员管理策略。该数据集的影响力不仅限于学术研究,还扩展到了公共政策讨论和媒体分析领域,成为理解美国政府内部运作的重要参考。
当前挑战
White House Salaries数据集在构建过程中面临的主要挑战包括数据格式的多样性和数据清洗的复杂性。原始数据以PDF、CSV等多种格式发布,尤其是特朗普政府时期的数据主要以PDF形式发布,这增加了数据提取和转换的难度。尽管使用了多种工具如ABBYY FineReader和Tabula进行自动化处理,但仍需大量手动清理和校对,以确保数据的准确性和一致性。此外,数据集还需解决跨年度数据的统一性问题,如员工姓名的标准化和薪资数据的跨年对比分析。这些挑战不仅影响了数据集的构建效率,也对后续的数据分析和应用提出了更高的要求。
常用场景
经典使用场景
在政治学和公共管理领域,white_house_salaries数据集常被用于分析白宫员工薪资的变化趋势及其与政策变动的关系。研究者可以通过该数据集追踪不同年份间薪资的波动,探讨薪资调整背后的政治和经济因素。此外,该数据集还支持跨年度的员工流动分析,揭示白宫内部人事变动的模式及其对行政效率的影响。
解决学术问题
该数据集为研究政府机构薪资结构和人事管理提供了宝贵的数据支持。通过分析薪资变化和员工流动,研究者能够深入探讨政府机构的薪酬公平性、激励机制及其对政策执行的影响。此外,数据集还为评估不同政府任期内的行政成本提供了量化依据,有助于理解政府规模与财政支出之间的关系。
实际应用
在实际应用中,white_house_salaries数据集被广泛用于政府透明度研究和公共财政分析。媒体和智库利用该数据集撰写关于白宫薪资政策的报道,揭示政府开支的细节。此外,该数据集还被用于开发数据可视化工具,帮助公众直观了解白宫薪资结构及其变化趋势,从而提升政府运作的透明度和问责性。
数据集最近研究
最新研究方向
近年来,white_house_salaries数据集在政府透明度与公共政策分析领域引起了广泛关注。研究者们利用该数据集深入探讨了白宫薪资结构的变化趋势,特别是在不同总统任期内的薪资波动与人员流动情况。通过分析2012年至2019年的薪资数据,学者们揭示了政府内部薪资分配的动态变化,并探讨了这些变化对政府效率与公共财政的影响。此外,该数据集还被用于研究政府机构的人员配置与薪资政策对公共服务质量的影响,为政策制定者提供了宝贵的参考依据。随着数据科学技术的进步,未来研究可能会进一步结合机器学习方法,预测薪资趋势及其对政府运作的长期影响。
以上内容由遇见数据集搜集并总结生成



