SomaliScan: US Government Spending Archive (2003–2026)
收藏github2026-05-18 更新2026-05-20 收录
下载链接:
https://github.com/CharlesScottBradley/somaliscan-data
下载链接
链接失效反馈官方服务:
资源简介:
一个统一的、公共领域的美国政府支出、竞选资金、游说和联邦就业数据存档,从公共记录聚合为单个可查询语料库,包含60个表、约6.96亿行数据、约100 GB压缩Parquet格式,采用CC0许可证。
A unified, public-domain archive of U.S. government spending, campaign finance, lobbying, and federal employment data. Aggregated from public records into a single queryable corpus, it contains 60 tables, approximately 696 million rows of data, and is stored in roughly 100 GB of compressed Parquet format, licensed under CC0.
创建时间:
2026-05-16
原始信息汇总
SomaliScan:美国政府支出档案 (2003–2026)
数据集概述
一个统一的公共领域档案,整合了美国政府支出、竞选资金、游说和联邦就业数据。数据来自公开记录,聚合为一个可查询的语料库。
- 规模:60张表 · 约6.96亿行 · 约100 GB压缩Parquet格式
- 许可证:CC0 1.0(公共领域,无需署名)
- 状态:冻结档案,不再更新。最后数据刷新时间为2026年1月至4月(依表格而异)
数据来源与覆盖范围
数据从以下公开来源收集、清理并交叉关联:
- USASpending.gov(财政部/OMB)
- FEC批量下载
- 50个州的支票簿门户
- SBA FOIA发布
- CMS阳光法案数据
- IRS商业主文件
- 以及其他数十个来源
数据分类详情
| 类别 | 表数量 | 行数 | 说明 |
|---|---|---|---|
| 联邦支出 | 11 | ~1.07亿 | USASpending奖项/合同/拨款 + SBA + FEMA |
| 州/地方支出 | 8 | ~2.8亿 | 州支票簿 2003–2026(追踪26.9万亿美元) |
| 政治资金 | 8 | ~3.7亿 | FEC + 多州竞选资金 |
| 游说 | 6 | ~800万 | 参议院LDA + 加州CAL-ACCESS |
| 薪资 | 2 | ~3900万 | 联邦(完整)+ 州(仅佐治亚和明尼苏达) |
| 医疗保健 | 6 | ~5000万 | CMS Open Payments、医疗保险、NPI、儿童保育 |
| 实体图谱 | 9 | ~3000万 | 跨来源组织注册表 + 关系边 |
| 移民/H-1B | 4 | ~260万 | DOL LCA、USCIS汇总 |
| 国会 | 3 | ~240万 | 联署、投票、联邦公报 |
| 其他 | 3 | ~87万 | SNAP零售商、纽约市儿童保育 |
完整表格文档:docs/tables/
数据获取方式
数据以Apache Parquet格式提供,可通过以下方式访问:
- 直接查询(无需下载):使用DuckDB从Hugging Face远程查询
- 批量下载:通过
huggingface-cli下载全部数据(约100 GB) - 在线浏览/下载:Hugging Face Datasets
- 永久镜像:Internet Archive(计划中)
- 可复现性:包含导出脚本
scripts/export.py
已知限制
- FEC历史空白:
fec_contributions表目前专注于2024年(2.41亿行),2010–2022年的数据未完成摄入 - 州支票簿覆盖不均:德州、加州、纽约等40个州有2010–2026年覆盖;佛罗里达为2017–2025年;新墨西哥仅2025年
- 州薪资数据不完整:仅包含佐治亚和明尼苏达两州数据
- 实体关联不完整:
organizations表有2200万行,但仅约4%填写了EIN - 医疗数据为近期数据:CMS Open Payments仅为2023–2024年数据
未包含的内容
以下内容有意未重新发布:
- 调查工作产品
- 欺诈检测启发式和标记表
- 编译的利害关系人名单
- 物化视图(可从基础表衍生)
- 内部暂存表和工作队列
引用方式
bibtex @dataset{somaliscan_spending_2026, title = {SomaliScan: US Government Spending Archive 2003--2026}, author = {SomaliScan Project}, year = {2026}, publisher = {Hugging Face Datasets}, version = {1.0.0}, url = {https://huggingface.co/datasets/somaliscan/spending-archive}, license = {CC0-1.0} }
搜集汇总
数据集介绍

构建方式
该数据集源自长期运行的透明政务平台SomaliScan,其构建方式并非简单的数据复制,而是将分散于USASpending.gov、FEC批量下载、五十个州独立财务门户、SBA FOIA披露、CMS阳光法案数据库及IRS商业主文件等数十个公共记录源头中的海量政务信息,进行了系统性汇聚、清洗与跨源关联,最终整合为一个可统一查询的语料库。通过精心设计的导出脚本实现数据快照的标准化转储,形成涵盖60张表、约6.96亿行记录的Parquet格式档案集,并以CC0公共领域许可发布,确保数据的永久自由可用。
特点
数据集最显著的特征在于其前所未有的统一性与综合性,将联邦与地方支出、政治资金、游说记录、薪资数据、医疗保健及实体关系图谱等多维度信息融合为单一视图。它不仅是美国公共资金流向的广角镜,更通过组织注册表与跨源连接边构建起实体关系网络,使得原本孤立的政务数据得以交叉关联。然而,数据集忠实呈现了其原生来源的固有限制,如FEC历史数据缺口、州级财务报告覆盖不均衡、实体链接部分完成及医疗数据时间跨度有限等,这些继承性缺陷被明确记录,体现了对数据真实状态的坦诚。
使用方法
数据集的全部内容以Apache Parquet列式格式存储,用户可通过轻量级分析引擎DuckDB直接从Hugging Face数据集仓库进行远程查询,无需下载全量数据即可执行复杂的结构化查询。例如,利用一条简单SQL命令即可在百万级贷款记录中筛选出特定条件的条目。对于需要本地使用的场景,亦可使用单一命令完成约100 GB数据的完整下载。此外,项目提供了详尽的表结构文档、使用指南及可复现的导出脚本,方便用户深度定制与扩展分析工作流。
背景与挑战
背景概述
在政府财政透明化与公共数据可及性日益成为全球治理焦点的时代背景下,SomaliScan项目团队于2026年推出了美国联邦及地方政府开支档案数据集(2003–2026年)。该数据集由SomaliScan项目主导构建,旨在将散落于USASpending.gov、联邦选举委员会(FEC)、各州财务门户、小企业管理局(SBA)及医疗保险与医疗补助服务中心(CMS)等数十个独立公共记录源中的政府开支、竞选资金、游说活动与联邦雇佣数据,整合为一个可统一查询的语料库。该数据集共包含60张数据表、约6.96亿行记录,压缩后体积约100GB,采用CC0公共领域许可协议发布。作为一项冻结的快照存档,它不仅为公共财政研究、政治经济学分析与政府问责提供了前所未有的数据基础设施,更以开源形式推动了政府数据透明化运动在聚合性与标准化层面的重大进展。
当前挑战
该数据集在构建与使用过程中面临多重挑战。首先,领域问题层面,政府开支数据散布于联邦、州及地方层级的不同系统中,格式各异、命名不统一,且部分历史数据(如FEC 2010–2022年批量数据)存在覆盖缺失,导致跨源实体关联与时间序列分析极为困难。其次,构建过程中遭遇的显著挑战包括:州级财务账簿覆盖面差异悬殊(如佛罗里达州缺失2010–2016年数据,新墨西哥州仅涵盖2025年),州级薪资数据仅收录佐治亚与明尼苏达两州,实体链接表(organizations)中约96%的记录缺乏雇主识别号(EIN),医疗服务数据(CMS Open Payments)仅包含2023–2024年近期记录。此外,作为一项停止维护的静态存档,其数据时效性局限在2026年初,无法反映后续变动,且调查衍生工作产品(如欺诈检测启发规则与利益相关者清单)因隐私与安全考量未纳入发布,限制了深层次分析的可能性。
常用场景
经典使用场景
在公共财政透明化与政府支出分析的研究领域中,SomaliScan数据集为学者提供了一站式、跨层级、跨年度的统一查询平台。其最经典的使用场景是构建涵盖联邦、州及地方三级政府的全景式财政支出图谱,研究者可通过单一工具同时检索联邦合同中高达百万美元级别的项目、州级财务报表中的细节条目以及地方层面的薪资与采购记录。借助高效列式存储格式Apache Parquet与轻量级分析引擎DuckDB,用户无需预先下载百GB级数据即可完成海量表格的即席查询,极大降低了大粒度政府支出数据分析的技术门槛,使得从宏观政策到微观交易的穿透式追踪成为可能。
解决学术问题
该数据集系统性地解决了一个长期困扰公共管理、政治科学与经济学界的核心学术问题:跨来源政府财政数据碎片化导致的整合困难与重复劳动。过去,研究者不得不在USASpending.gov、联邦选举委员会、50个州独立财务门户等数十个异构平台间手动爬取、清洗与对齐,不仅耗时且极易引入偏差。SomaliScan通过聚合、清洗与交叉索引,构建了涵盖政治献金、游说、医疗支付、移民签证乃至国会投票等60张表、约7亿行记录的关联性知识图谱,使学者能够首次在统一框架下回答“特定行业的游说支出与其获得的联邦合同之间是否存在关联”等横跨多个原始系统的复杂因果推断问题,极大地推动了透明治理与政策评估的实证研究进程。
衍生相关工作
SomaliScan的开放架构与全面覆盖已衍生出多个具有影响力的后续工作。基于其提供的高质量基础表,研究者开发了跨源实体链接工具,将分散在USASpending、FEC和州合同数据库中的同一个组织或个人的记录进行融合,显著提升了关联分析的精准度。其公开的导出脚本(export.py)被其他研究小组复用以构建区域性支出追踪系统,或用于补全数据集本身已知的覆盖缺口,如补全2010—2022年联邦选举委员会的历史贡献数据。此外,该数据集被用作训练监督式财政欺诈检测模型的标准基准,推动了机器学习在政府审计领域的应用。其集成的国会投票与联邦登记数据也为自然语言处理领域的法案文本与投票行为联合建模研究提供了宝贵的语料来源。
以上内容由遇见数据集搜集并总结生成



