five

hyperdemocracy/usc-textversion

收藏
Hugging Face2025-10-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/hyperdemocracy/usc-textversion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是美国政府出版办公室(GPO)通过GovInfo批量数据仓库提供的国会数据的一部分。数据集包含美国国会113至118届的法案文本版本,以XML格式存储。数据集通过congress和legisplain两个仓库进行了下载和处理。数据集中的每个文本版本都有一个唯一的ID,并且包含了法案的唯一ID、国会编号、法案类型、法案编号、法案版本、法案类别、XML文件路径、文件名、最后修改日期、XML类型、根标签、XML内容和纯文本内容等信息。数据集还提供了如何使用该数据集的示例代码,以及国会编号与年份的映射关系。

This dataset is part of a family of datasets that provide convenient access to congressional data from the US Government Publishing Office (GPO) via the GovInfo Bulk Data Repository. The dataset contains text versions of bills from the 113th to the 118th Congress of the United States, stored in XML format. The raw XML files were downloaded and processed using the congress and legisplain repositories. Each text version in the dataset has a unique ID and includes information such as the bills unique ID, congress number, legislation type, legislation number, legislation version, legislation class, XML file path, file name, last modification date, XML type, root tag, XML content, and plain text content. The README also provides example code on how to use the dataset and a mapping of congress numbers to years.
提供机构:
hyperdemocracy
原始信息汇总

数据集概述

数据集描述

该数据集是提供美国国会数据的系列数据集之一,通过美国政府出版办公室(GPO)的GovInfo批量数据存储库提供。原始XML文件通过congress仓库下载,并使用legisplain仓库进行进一步处理。

数据集组成

数据集包含113至118届国会的法案文本版本,每个版本以XML格式存储。

数据文件

  • 配置名称:default
  • 数据文件路径:
    • 113届:data/usc-113-textversion.parquet
    • 114届:data/usc-114-textversion.parquet
    • 115届:data/usc-115-textversion.parquet
    • 116届:data/usc-116-textversion.parquet
    • 117届:data/usc-117-textversion.parquet
    • 118届:data/usc-118-textversion.parquet

数据集字段描述

列名 描述
tv_id 每个文本版本的唯一ID ({congress_num}-{legis_type}-{legis_num}-{legis_version}-{xml_type})
legis_id 每个法案的唯一ID ({congress_num}-{legis_type}-{legis_num})
congress_num 法案所属的国会届数
legis_type 法案类型,包括hr, hres, hconres, hjres, s, sres, sconres, sjres
legis_num 每届国会和每种类型法案的递增编号
legis_version 法案文本版本
legis_class 法案类别,包括bills, plaw
bulk_path 批量下载时的XML文件路径
file_name bulk_path的最后部分,用于与billstatus连接
lastmod 批量下载时的最后修改日期
xml_type XML类型,包括dtd, uslm
root_tag 根XML标签,包括bill, resolution, amendment-doc, pLaw
tv_xml 文本版本XML文件的内容
tv_txt XML内容的纯文本版本

数据集示例

数据集按国会届数分为多个子集(每个子集对应一个国会届数)。

国会届数与时间映射

国会届数 年份 元数据 文本
118 2023-2024 True True
117 2021-2022 True True
116 2019-2020 True True
115 2017-2018 True True
114 2015-2016 True True
113 2013-2014 True True
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建采取了从美国政府出版办公室的GovInfo批量数据存储库中下载原始XML文件的方式。这些文件通过使用congress仓库进行下载,并利用legisplain仓库进一步处理,从而形成了包含不同国会立法文本版本的数据集。
特点
数据集涵盖了第113届至第118届美国国会的立法文本版本,包含了法案的不同阶段文本,如草案、修正案等。每个文本版本均具有唯一标识,并提供了包括法案类型、法案编号、法案版本以及XML文件的相关信息等详细字段。此外,数据集遵循MIT许可证,保证了使用的灵活性和开放性。
使用方法
用户可以通过HuggingFace的datasets库加载整个数据集或单个国会的数据。数据集支持按国会编号进行分割加载,亦可通过指定split参数为'all'来加载全部数据。每个数据分割均包含一个唯一的键,便于用户根据具体需求进行数据访问和处理。
背景与挑战
背景概述
hyperdemocracy/usc-textversion数据集,旨在为研究者提供便捷的美国国会数据访问渠道,其数据来源于美国政府出版办公室的GovInfo批量数据仓库。该数据集包含了113至118届国会法案的不同文本版本,以XML格式存储。创建此数据集是为了方便立法文本分析,增进对法案文本演变及立法过程的理解。该数据集的创建时间为近年,由多个研究者和机构合作完成,对于法案文本分析、立法过程研究以及政治文本挖掘等领域产生了显著影响。
当前挑战
在数据集构建过程中,研究团队面临的挑战主要包括:1)如何高效地从原始XML文件中提取和转换文本信息;2)确保数据集的准确性与一致性,特别是在处理大量文本版本和不同法案类型时;3)数据集的可用性和可访问性,即如何使数据易于使用和理解。此外,所解决的领域问题,即法案文本分析,面临的挑战包括如何准确识别和分类法案文本中的关键信息,以及如何处理文本中的歧义和多样性。
常用场景
经典使用场景
在深入探索美国立法程序的学术研究中,hyperdemocracy/usc-textversion数据集提供了不同版本法案文本的详尽资源,研究者得以追踪法案从提议到成为法律的全过程。该数据集的经典使用场景在于,通过对不同版本法案的比较分析,研究者能够洞察立法过程中的变化和妥协,以及这些变化背后的政治互动和利益博弈。
实际应用
在实际应用中,hyperdemocracy/usc-textversion数据集可用于政策分析、法律起草辅助、以及公众教育和信息透明化等领域。政府和研究机构可以利用该数据集进行立法效果评估,公众也可以通过该数据集了解法案的制定过程,增强对立法活动的理解和参与。
衍生相关工作
基于hyperdemocracy/usc-textversion数据集,已衍生出多项相关工作,如针对特定法案的深入分析、立法趋势的长期研究,以及结合自然语言处理技术的法案内容自动分类和情感分析等,这些研究进一步拓展了数据集的应用边界,丰富了立法研究领域的学术成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作