hyperdemocracy/usc-textversion

Name: hyperdemocracy/usc-textversion
Creator: hyperdemocracy
Published: 2025-10-11 19:34:07
License: 暂无描述

Hugging Face2025-10-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/hyperdemocracy/usc-textversion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是美国政府出版办公室（GPO）通过GovInfo批量数据仓库提供的国会数据的一部分。数据集包含美国国会113至118届的法案文本版本，以XML格式存储。数据集通过congress和legisplain两个仓库进行了下载和处理。数据集中的每个文本版本都有一个唯一的ID，并且包含了法案的唯一ID、国会编号、法案类型、法案编号、法案版本、法案类别、XML文件路径、文件名、最后修改日期、XML类型、根标签、XML内容和纯文本内容等信息。数据集还提供了如何使用该数据集的示例代码，以及国会编号与年份的映射关系。

This dataset is part of a family of datasets that provide convenient access to congressional data from the US Government Publishing Office (GPO) via the GovInfo Bulk Data Repository. The dataset contains text versions of bills from the 113th to the 118th Congress of the United States, stored in XML format. The raw XML files were downloaded and processed using the congress and legisplain repositories. Each text version in the dataset has a unique ID and includes information such as the bills unique ID, congress number, legislation type, legislation number, legislation version, legislation class, XML file path, file name, last modification date, XML type, root tag, XML content, and plain text content. The README also provides example code on how to use the dataset and a mapping of congress numbers to years.

提供机构：

hyperdemocracy

原始信息汇总

数据集概述

数据集描述

该数据集是提供美国国会数据的系列数据集之一，通过美国政府出版办公室（GPO）的GovInfo批量数据存储库提供。原始XML文件通过congress仓库下载，并使用legisplain仓库进行进一步处理。

数据集组成

数据集包含113至118届国会的法案文本版本，每个版本以XML格式存储。

数据文件

配置名称：default
数据文件路径：
- 113届：data/usc-113-textversion.parquet
- 114届：data/usc-114-textversion.parquet
- 115届：data/usc-115-textversion.parquet
- 116届：data/usc-116-textversion.parquet
- 117届：data/usc-117-textversion.parquet
- 118届：data/usc-118-textversion.parquet

数据集字段描述

列名	描述
tv_id	每个文本版本的唯一ID (`{congress_num}-{legis_type}-{legis_num}-{legis_version}-{xml_type}`)
legis_id	每个法案的唯一ID (`{congress_num}-{legis_type}-{legis_num}`)
congress_num	法案所属的国会届数
legis_type	法案类型，包括`hr`, `hres`, `hconres`, `hjres`, `s`, `sres`, `sconres`, `sjres`
legis_num	每届国会和每种类型法案的递增编号
legis_version	法案文本版本
legis_class	法案类别，包括`bills`, `plaw`
bulk_path	批量下载时的XML文件路径
file_name	bulk_path的最后部分，用于与billstatus连接
lastmod	批量下载时的最后修改日期
xml_type	XML类型，包括`dtd`, `uslm`
root_tag	根XML标签，包括`bill`, `resolution`, `amendment-doc`, `pLaw`
tv_xml	文本版本XML文件的内容
tv_txt	XML内容的纯文本版本

数据集示例

数据集按国会届数分为多个子集（每个子集对应一个国会届数）。

国会届数与时间映射

国会届数	年份	元数据	文本
118	2023-2024	True	True
117	2021-2022	True	True
116	2019-2020	True	True
115	2017-2018	True	True
114	2015-2016	True	True
113	2013-2014	True	True

搜集汇总

数据集介绍

构建方式

该数据集的构建采取了从美国政府出版办公室的GovInfo批量数据存储库中下载原始XML文件的方式。这些文件通过使用congress仓库进行下载，并利用legisplain仓库进一步处理，从而形成了包含不同国会立法文本版本的数据集。

特点

数据集涵盖了第113届至第118届美国国会的立法文本版本，包含了法案的不同阶段文本，如草案、修正案等。每个文本版本均具有唯一标识，并提供了包括法案类型、法案编号、法案版本以及XML文件的相关信息等详细字段。此外，数据集遵循MIT许可证，保证了使用的灵活性和开放性。

使用方法

用户可以通过HuggingFace的datasets库加载整个数据集或单个国会的数据。数据集支持按国会编号进行分割加载，亦可通过指定split参数为'all'来加载全部数据。每个数据分割均包含一个唯一的键，便于用户根据具体需求进行数据访问和处理。

背景与挑战

背景概述

hyperdemocracy/usc-textversion数据集，旨在为研究者提供便捷的美国国会数据访问渠道，其数据来源于美国政府出版办公室的GovInfo批量数据仓库。该数据集包含了113至118届国会法案的不同文本版本，以XML格式存储。创建此数据集是为了方便立法文本分析，增进对法案文本演变及立法过程的理解。该数据集的创建时间为近年，由多个研究者和机构合作完成，对于法案文本分析、立法过程研究以及政治文本挖掘等领域产生了显著影响。

当前挑战

在数据集构建过程中，研究团队面临的挑战主要包括：1)如何高效地从原始XML文件中提取和转换文本信息；2)确保数据集的准确性与一致性，特别是在处理大量文本版本和不同法案类型时；3)数据集的可用性和可访问性，即如何使数据易于使用和理解。此外，所解决的领域问题，即法案文本分析，面临的挑战包括如何准确识别和分类法案文本中的关键信息，以及如何处理文本中的歧义和多样性。

常用场景

经典使用场景

在深入探索美国立法程序的学术研究中，hyperdemocracy/usc-textversion数据集提供了不同版本法案文本的详尽资源，研究者得以追踪法案从提议到成为法律的全过程。该数据集的经典使用场景在于，通过对不同版本法案的比较分析，研究者能够洞察立法过程中的变化和妥协，以及这些变化背后的政治互动和利益博弈。

实际应用

在实际应用中，hyperdemocracy/usc-textversion数据集可用于政策分析、法律起草辅助、以及公众教育和信息透明化等领域。政府和研究机构可以利用该数据集进行立法效果评估，公众也可以通过该数据集了解法案的制定过程，增强对立法活动的理解和参与。

衍生相关工作

基于hyperdemocracy/usc-textversion数据集，已衍生出多项相关工作，如针对特定法案的深入分析、立法趋势的长期研究，以及结合自然语言处理技术的法案内容自动分类和情感分析等，这些研究进一步拓展了数据集的应用边界，丰富了立法研究领域的学术成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集