hyperdemocracy/usc-unified|美国国会数据集|法案数据数据集

hugging_face2025-04-24 更新2024-06-29 收录

美国国会

法案数据

下载链接：

https://hf-mirror.com/datasets/hyperdemocracy/usc-unified

下载链接

链接失效反馈

资源简介：

该数据集是一系列数据集的一部分，提供了对美国国会数据的便捷访问，数据来源于美国政府出版办公室的GovInfo批量数据仓库。原始数据为XML格式，通过congress和legisplain仓库进行下载和进一步处理。数据集包含美国国会第113至118届的法案元数据和文本版本，提供了每个法案的唯一ID、国会编号、法案类型、法案编号、XML文件路径、最后修改日期、XML文件内容、解析后的JSON以及每个法案的所有文本版本。数据集按国会编号分为不同的部分，并提供了加载数据集的Python代码示例。此外，还提供了国会编号与年份的映射关系。

提供机构：

hyperdemocracy

原始信息汇总

数据集概述

数据集描述

该数据集是提供美国国会数据的系列数据集之一，涵盖了第113至118届国会的统一元数据和文本版本。数据来源于美国政府出版办公室（GPO）的GovInfo批量数据存储库，原始数据为XML格式。

数据集组成

数据集分为多个部分，每个部分对应一个国会届数，具体包括：

第113届国会
第114届国会
第115届国会
第116届国会
第117届国会
第118届国会

数据文件

每个国会届数的数据文件存储在对应的Parquet文件中，路径如下：

第113届国会：data/usc-113-unified.parquet
第114届国会：data/usc-114-unified.parquet
第115届国会：data/usc-115-unified.parquet
第116届国会：data/usc-116-unified.parquet
第117届国会：data/usc-117-unified.parquet
第118届国会：data/usc-118-unified.parquet

列描述

数据集包含以下列：

legis_id：每个法案的唯一ID，格式为{congress_num}-{legis_type}-{legis_num}
congress_num：法案所属的国会届数
legis_type：法案类型，包括hr, hres, hconres, hjres, s, sres, sconres, sjres
legis_num：每个国会和类型的法案的递增编号
bulk_path：批量下载时的XML文件路径
lastmod：批量下载时的最后修改日期
bs_xml：billstatus XML文件的内容
bs_json：billstatus XML解析为JSON的内容
tvs：该法案的所有文本版本

示例

数据集按国会届数分为多个部分，可以使用以下代码加载： python from datasets import load_dataset

加载每个国会届数的数据到`DatasetDict`中

dsd = load_dataset(path="hyperdemocracy/usc-unified")

加载单个国会届数的数据到`Dataset`中

ds = load_dataset(path="hyperdemocracy/usc-unified", split=117)

加载所有国会届数的数据到单个`Dataset`中

ds = load_dataset(path="hyperdemocracy/usc-unified", split="all")

国会届数与时间映射

国会届数	年份	元数据	文本
118	2023-2024	True	True
117	2021-2022	True	True
116	2019-2020	True	True
115	2017-2018	True	True
114	2015-2016	True	True
113	2013-2014	True	True

AI搜集汇总

数据集介绍

构建方式

该数据集 hyperdemocracy/usc-unified 依托于美国政府的公开数据资源，通过从 Government Publishing Office 的 GovInfo Bulk Data Repository 下载原始 xml 格式的国会数据，并利用 congress 和 legisplain 两个开源项目进行进一步的数据处理与整合，形成了包含 metadata 和 text version xml 的统一格式数据集。

特点

数据集整合了美国第 113 到第 118 届国会的立法信息，每一条记录都包含唯一的立法标识、国会编号、立法类型、立法序号等字段，以及对应的 billstatus XML 文件内容和解析后的 JSON 格式数据。其 metadata 和 text version 的结合，为研究美国立法过程提供了全面且结构化的数据资源。

使用方法

用户可以通过 HuggingFace 的 datasets 库加载数据集。数据集支持按国会编号进行分割加载，也可以一次性加载所有国会数据。例如，使用 load_dataset 函数，指定 split 参数为特定的国会编号或 'all' 以加载全部数据，进而方便地进行数据分析和模型训练。

背景与挑战

背景概述

hyperdemocracy/usc-unified数据集，作为美国国会数据的一种便捷获取方式，其创建旨在为研究人员提供从美国政府部门通过GovInfo Bulk Data Repository获取的国会数据。该数据集由一系列数据集组成，其中包括usc-billstatus、usc-textversion以及usc-unified，后者将元数据和文本版本XML相结合，覆盖了第113届至第118届国会的数据。该数据集的创建归功于多个机构和研究人员的共同努力，特别是利用了congress和legisplain这两个repo对原始的XML文件进行下载和进一步处理。其对于理解美国立法过程、法案状态跟踪以及文本版本分析等领域的研究具有重要的参考价值。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1)如何高效地从美国政府出版办公室获取大量的XML格式数据；2)如何将这些原始数据进行清洗、整合，并转换成便于研究的格式；3)数据集在覆盖范围、时效性和准确性方面的挑战，尤其是在保持与政府数据更新同步上。此外，数据集在解决领域问题，如法案状态的跟踪和文本版本的分析时，还需克服如何确保数据的一致性和完整性的挑战。

常用场景

经典使用场景

在深入探索美国国会立法活动的领域，该数据集提供了一个统一的视角，将法案的元数据和文本版本相结合。其经典的使用场景在于，研究人员可以便捷地检索和分析特定法案的完整生命周期，包括法案的提出、修改、投票和最终结果，从而为立法过程的研究提供了全面的数据支撑。

实际应用

在实际应用中，该数据集可被用于构建立法跟踪系统，支持政府机构、非政府组织和研究机构实时监控和分析法案动态。此外，它还可用于教育和培训，帮助学生和专业人士更好地理解立法过程和法案的构成。

衍生相关工作

基于该数据集，已衍生出一系列相关工作，如法案文本分析、立法效率评估、以及政策影响研究等。这些工作不仅丰富了立法研究领域的方法论，也为政策制定者和分析师提供了实证研究的工具，以促进更有效的决策过程。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录