five

fec-dumps

收藏
github2026-04-28 更新2026-04-29 收录
下载链接:
https://github.com/NickCrews/fec-dumps
下载链接
链接失效反馈
官方服务:
资源简介:
每周更新的联邦选举委员会(FEC) Schedule A和Schedule B数据集的parquet格式导出。这些数据来自FEC数据库的每周.dump备份,并以parquet文件形式发布到Hugging Face数据集平台。

Weekly-updated Parquet-format exports of the Federal Election Commission (FEC) Schedule A and Schedule B datasets. These datasets are sourced from the weekly .dump backups of the FEC database, and are released on the Hugging Face Datasets platform in Parquet file format.
创建时间:
2026-04-25
原始信息汇总

数据集概述

fec-dumps 是一个将美国联邦选举委员会(FEC)每周发布的 .dump 备份文件中的 Schedule A 和 Schedule B 表转换为 .parquet 格式并持续发布的数据集。

数据来源

  • 原始数据来自 FEC 每周在 S3 发布的 PostgreSQL .dump 备份文件。
  • 具体原始地址:https://cg-519a459a-0ea3-42c2-b7bc-fa1143481f74.s3-us-gov-west-1.amazonaws.com/bulk-downloads/index.html?prefix=bulk-downloads/data-dump/schedules/

数据发布

  • 所有表以 Parquet 文件形式发布到 Hugging Face 数据集:https://huggingface.co/datasets/NickCrews/fec-dumps
  • 由 GitHub Action 每周自动更新。
  • 文件在 main 分支上覆盖,URL 保持稳定,但数据每周变化。

数据使用示例

在 DuckDB 中可简单查询,例如获取 1985-1986 年 Schedule A 数据: sql SELECT * FROM https://huggingface.co/datasets/NickCrews/fec-dumps/resolve/main/disclosure.fec_fitem_sched_a_1985_1986.parquet

数据格式说明

  • Parquet 文件中的所有列均为字符串类型。
  • 未来可能更改类型,使用者代码需做好应对变化的防御性处理。

许可与合规

  • 数据本身受 FEC 数据使用规定(https://www.fec.gov/updates/sale-or-use-contributor-information/)约束。
  • 代码部分(工具等)采用 MIT 许可,可自由修改和使用。
  • 对于数据的使用,需遵守 FEC 的相关规定。

方法论

  • 使用 GitHub 上的 pg_dumpster 命令行工具(https://github.com/NickCrews/pg_dumpster)从 PostgreSQL .dump 文件中提取表数据条目。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集依托联邦选举委员会(FEC)每周发布的PostgreSQL数据库.dump备份文件,借助开源工具pg_dumpster提取Schedule A与Schedule B表格数据条目,并将其转换为高效的Parquet列式存储格式。所有文件通过GitHub Action自动化流水线定期发布至Hugging Face数据集仓库,确保数据每周更新并保持URL稳定性。列字段均以字符串类型存储,以兼容不同使用场景,未来可能调整类型定义。
使用方法
用户可通过DuckDB等支持远程Parquet文件读取的引擎直接查询,例如执行`SELECT * FROM 'https://huggingface.co/datasets/NickCrews/fec-dumps/resolve/main/disclosure.fec_fitem_sched_a_1985_1986.parquet'`即可获取1985-1986年Schedule A原始数据。数据文件路径遵循固定命名模式,支持按选举周期分片访问。注意遵循FEC数据使用规定,避免将贡献者信息用于禁止性商业用途。
背景与挑战
背景概述
联邦选举委员会(FEC)作为美国政治资金监管的核心机构,其数据库中的Schedule A(捐款明细)与Schedule B(支出明细)表格是研究竞选资金流向与政治经济行为的关键数据源。然而,FEC每周发布的.dump格式备份文件存在访问门槛高、解析复杂度大的问题,阻碍了研究者与公众的高效利用。2023年,研究者Nick Crews发起fec-dumps项目,通过自动化流水线将FEC官方备份转换为.parquet列式存储格式,并依托Hugging Face平台实现每周定期更新与公开托管。该数据集首次以跨平台、低延迟的标准化格式重构了FEC历史政治献金数据(自1985年起),使得用户可通过DuckDB等工具直接进行远程SQL查询,显著降低了大型政治金融数据的获取与计算壁垒,开启了政治资金透明化分析的民主化新范式。
当前挑战
该数据集核心面临三重挑战。其一,原始数据异构性与格式壁垒:FEC官方.dump文件基于PostgreSQL专有二进制格式,需借助pg_dumpster等逆向工具解析表结构(如字段类型与约束),且历史数据版本间的模式差异(如1985年与2020年字段定义)增加了统一提取的复杂性。其二,数据颗粒度与准确性保障:虽然Parquet格式具有列式压缩优势,但当前所有字段均被强制转为字符串类型,可能导致日期范围过滤(如选举周期划分)或数值聚合分析(如捐款金额统计)时产生隐式类型转换误差。其三,持续更新的技术维护挑战:通过GitHub Action每周同步FEC增量数据并覆盖远程文件,需处理网络中断、源数据格式变更及Hugging Face存储配额限制等运维风险,同时用户代码必须保持对将来可能的数据类型重构的向后兼容性。
常用场景
经典使用场景
在美国政治竞选财务透明度研究中,fec-dumps数据集凭借其将联邦选举委员会(FEC)的Schedule A(捐款明细)和Schedule B(支出明细)周度备份数据转换为Parquet格式的特性,成为分析政治资金流动的经典工具。研究者可直接通过DuckDB等查询引擎,从Hugging Face平台远程加载1985年至今的庞大赛事财务记录,省去传统数据清洗与格式转换的繁琐步骤。该数据集最典型的应用场景涵盖候选人筹款模式追踪、超级政治行动委员会(Super PAC)资金来源剖析以及行业捐款倾向性分析,其稳定且持续更新的URL机制保障了纵向对比研究的可重复性,极大降低了政治金融领域大数据研究的入门门槛。
解决学术问题
该数据集的诞生切实破解了美国竞选财务研究中长期存在的两大痛点:一是原始FEC数据库的.dump格式难以被主流数据分析工具直接读取,二是历史版本数据获取途径分散且缺乏标准化接口。通过提供统一、轻量且跨平台的Parquet格式快照,研究者得以跨越技术壁垒,聚焦于选举资金透明度、政治献金与立法行为关联性、利益集团影响力评估等核心学术命题。其每周自动同步机制使得学界能够实时追踪选举周期中的资金动态,为验证选举公平性理论、构建政治经济计量模型提供了坚实的数据地基,显著推动了计算社会科学在政治金融交叉领域的实证进展。
实际应用
在真实世界的政策分析与媒体监督中,fec-dumps数据集已催生出一系列高价值应用。新闻机构利用其丰富的明细数据构建交互式捐款可视化看板,揭露特定产业集团对总统候选人的资金输送网络;非营利组织借助时间序列分析监控选举超级捐款人的跨党派资金转移行为,为反制政治腐败提供预警信号;竞选团队则通过解析对手的支出结构,优化自身广告投放与活动策划策略。此外,合规科技公司依托此数据集开发自动化审计工具,辅助政治行动委员会精准生成FEC申报文件,降低法律合规风险。这种从学术研究到产业落地的无缝衔接,充分彰显了开放政治数据的社会变革潜能。
数据集最近研究
最新研究方向
随着美国联邦选举委员会(FEC)逐步开放政治献金数据,该领域的前沿研究正聚焦于利用大规模结构化数据集进行选举财务透明化分析。fec-dumps 数据集的推出,将原本分散的 Schedule A 与 Schedule B 备份文件转化为易于访问的 Parquet 格式,并定期发布于 Hugging Face 平台,为研究者提供了跨年度的连续性竞选资金流动记录。这一转变与近年来全球范围内对政治金融透明度的密切关注相呼应,尤其在2024年美国大选周期中,研究者可借助该数据集实时追踪候选人募资与支出模式,甚至结合机器学习模型识别异常捐赠行为或资金流向网络。此外,DuckDB 等现代查询工具的无缝集成显著降低了数据获取门槛,使社会科学与计算科学交叉研究成为可能,推动了对选举腐败、游说影响力等热点议题的量化探索。该数据集不仅强化了公民对选举过程的监督能力,也为政策制定者提供了基于证据的治理依据,其开放许可模式进一步扩大了学术与公共利益领域的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作