Balances
收藏Hugging Face2025-05-08 更新2025-05-09 收录
下载链接:
https://huggingface.co/datasets/leeroy-jankins/Balances
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含了根据2014年《数字责任与透明度法案》(DATA Act)提交的美国联邦机构的账户余额(文件A)。每一行反映了在财政年度的特定报告期间,财政部拨款基金符号(TAFS)级别的预算账户余额。这是用于透明度、跨机构报告和在USAspending.gov上公开显示的核心财务摘要。
创建时间:
2025-05-08
原始信息汇总
数据集概述:Account Balances – U.S. Federal Budget Execution (DATA Act)
📌 基本信息
- 维护者: Terry Eppler
- 来源: 美国财政部 | 管理与预算办公室 (OMB)
- 标准: DATA Act (Pub. L. 113–101) | DAIMS v2.1+ | OMB Circular A-11 Section 130
- 许可证: mit
📖 数据集简介
- 包含美国联邦机构提交的账户余额(文件A),作为**2014年数字问责与透明法案(DATA Act)**的一部分。
- 每行反映**Treasury Appropriation Fund Symbol (TAFS)**级别的预算账户余额。
- 用于透明度、跨机构报告和在USAspending.gov上公开显示的核心财务摘要。
🎯 用途
- 跟踪国会按账户分配的预算权限。
- 实现政府对资金分配和支出的公开透明。
- 支持与文件B(项目活动/对象类别)和文件C(奖项)的对账。
- 为仪表板、分析和联邦预算审计提供数据支持。
- 为公共财务领域的机器学习/自然语言处理提供结构化训练数据。
🗃️ 数据模式
| 字段名 | 描述 |
|---|---|
fiscal_year |
报告的财政年度(例如2023) |
period |
报告周期(例如6 = Q2,12 = 年度) |
agency_identifier |
财政部3位机构代码(例如089代表能源部) |
main_account_code |
机构内的4位账户代码 |
sub_account_code |
通常为000;区分程序级子账户 |
tas |
Treasury Appropriation Fund Symbol(连接后的) |
budget_authority_appropriated_amount |
收到的新拨款 |
obligations_incurred_total_by_tas |
累计至今的义务 |
gross_outlay_amount_by_tas |
实际支付或支出 |
unobligated_balance_brought_forward |
前一年结转的余额 |
ussgl_account_number |
美国标准总账参考 |
每行反映特定财政周期的一个TAS。
🔗 文件关系
文件A是一系列相互关联的DATA Act文件中的第一个:
| 文件 | 描述 | 与文件A的关系 |
|---|---|---|
| 文件B | 对象类别和项目活动 | 必须与TAS级别的义务对账 |
| 文件C | 奖项财务(拨款/合同) | 必须与文件A总额对账 |
| 文件D1/D2 | 详细的合同/拨款数据 | 通过奖项ID(来自文件C)连接 |
| SF 133 | 预算执行报告 | 财政部的季度验证基准 |
🚀 示例用例
python from datasets import load_dataset
ds = load_dataset("your-org/file-a-account-balances")
按机构和财政年度筛选
energy_2022 = ds.filter(lambda x: x["agency_identifier"] == "089" and x["fiscal_year"] == 2022)
汇总义务
total_obligated = sum(float(x["obligations_incurred_total_by_tas"]) for x in energy_2022) print(f"Total Obligated for DOE (2022): ${total_obligated:,.2f}")
搜集汇总
数据集介绍

构建方式
该数据集依据美国《数字问责与透明法案》(DATA Act)的法定要求构建,由财政部与管理和预算办公室(OMB)联合编制。数据采集严格遵循DAIMS v2.1+技术标准和OMB A-11通告第130章节规范,通过联邦机构定期提交的TAS级账户余额报告形成结构化记录。每条数据条目均包含财政年度、报告周期、机构标识符等核心维度,并经过多轮财政审计验证确保符合美国标准总账(USSGL)体系要求。
特点
数据集以财政部拨款基金符号(TAFS)为基本核算单元,完整覆盖联邦预算执行过程中的关键财务指标,包括预算授权金额、累计债务总额、实际支出金额等核心字段。其突出特点在于采用机器可读的标准化编码体系,支持跨机构财务数据的横向比对与时间序列分析。作为USAspending.gov的底层数据源,该数据集实现了立法授权、预算执行与公共支出的全链路追踪。
使用方法
用户可通过HuggingFace数据集库直接加载该资源,利用Python进行多维度的财政分析。典型应用场景包括:按机构代码和财年筛选特定部门的预算执行情况,聚合TAFS层级的债务总额进行跨年度对比,或与File B、File C等关联数据集进行财务对账验证。数据集兼容主流数据分析框架,支持作为机器学习模型训练语料,用于公共财政领域的预测性分析或异常检测。
背景与挑战
背景概述
Balances数据集源于2014年颁布的《数字问责与透明法案》(DATA Act),由美国财政部与行政管理和预算局(OMB)联合构建,旨在实现联邦预算执行的数字化透明。作为DATA Act报告体系的核心组成部分,该数据集以国库拨款基金符号(TAFS)为粒度,系统记录了各联邦机构的账户余额信息,为USAspending.gov等公共财政透明度平台提供基础数据支撑。其创新性在于首次建立了标准化的跨部门预算执行报告框架,不仅满足了国会监督需求,更为公共财政领域的机器学习研究提供了结构化数据源。
当前挑战
该数据集面临的核心领域挑战在于如何确保海量预算数据在多维度下的精确匹配与动态更新,包括TAFS层级与项目活动(File B)、奖励财务(File C)等关联数据集的实时对账问题。构建过程中需克服联邦机构异构财务系统的数据整合难题,涉及83个独立报告实体、超过2000个预算账户的标准化映射。技术挑战集中体现在处理非结构化历史数据的语义转换,以及满足OMB A-11通告第130节对季度报告时效性的严格要求,任何数据延迟都将影响整个DATA Act报告链条的完整性。
常用场景
经典使用场景
在公共财政透明度研究中,Balances数据集作为美国政府预算执行的核心财务摘要,被广泛应用于追踪和分析联邦机构的预算授权情况。研究人员通过该数据集能够深入理解各机构在不同财政年度的资金分配模式,特别是在国会预算授权与资金实际使用之间的动态关系分析中展现出重要价值。数据集的结构化设计使得跨机构比较和时间序列分析成为可能,为政策效果评估提供了量化基础。
衍生相关工作
围绕该数据集已产生若干标志性研究成果,包括基于机器学习的预算异常检测系统、跨年度财政政策影响评估模型,以及面向公众的交互式财政可视化工具。这些衍生工作不仅扩展了原始数据的应用维度,更形成了政府财务数据分析的方法论体系,其中部分成果已被整合到美国财政部官方审计流程中,体现了学术研究向实践转化的完整闭环。
数据集最近研究
最新研究方向
近年来,随着数字政府建设的深入推进,美国联邦预算执行数据的开放共享成为公共财政透明度研究的热点领域。基于DATA Act法案的File A数据集,研究者们正积极探索机器学习在政府预算分析中的创新应用。该数据集通过结构化记录财政年度、机构标识符、预算授权金额等关键字段,为联邦预算执行的动态监测提供了数据基础。在公共财政智能化转型背景下,学者们聚焦于开发基于深度学习的预算异常检测模型,利用时间序列分析方法追踪跨部门资金流动模式,并结合自然语言处理技术解析预算文本与执行数据的关联性。这些研究不仅提升了政府财政透明度,也为政策制定者提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成



