hheiden/us-congress-117-bills

Name: hheiden/us-congress-117-bills
Creator: hheiden
Published: 2023-10-06 23:27:47
License: 暂无描述

Hugging Face2023-10-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hheiden/us-congress-117-bills

下载链接

链接失效反馈

官方服务：

资源简介：

US 117th Congress Bills数据集包含了第117届美国国会（2021-2022年）期间提出的所有众议院决议、众议院联合决议、参议院决议和参议院联合决议。该数据集的任务是将每项法案归类到33个主要政策领域之一。数据集分为训练集和测试集，分别包含11,389和3,797项法案。数据字段包括法案的唯一ID、政策领域、最新摘要、文本、标题、官方标题、短标题、主要提案人姓名、党派和州等信息。数据集是从congress.gov收集的，经过最小化预处理，旨在为NLP和立法交叉领域提供新的数据集。

提供机构：

hheiden

原始信息汇总

数据集卡片 for US 117th Congress Bills

数据集描述

数据集概述

US 117th Congress Bills 数据集是收集了第117届国会（2021-2022年）期间提出的所有众议院决议、众议院联合决议、参议院决议和参议院联合决议的集合。任务是将每个法案分类到三十三个主要政策领域之一。训练集包含11,389个法案，测试集包含3,797个法案。

支持的任务和排行榜

text-classification: 目标是将每个法案分类到三十三个主要政策领域之一。数据集包含文本标签（policy_areas）和类别整数（y）。

这些类别对应于：

0: 农业和食品
1: 动物
2: 武装部队和国家安全
3: 艺术、文化、宗教
4: 公民权利和自由、少数族裔问题
5: 商业
6: 国会
7: 犯罪和执法
8: 经济和公共财政
9: 教育
10: 应急管理
11: 能源
12: 环境保护
13: 家庭
14: 金融和金融部门
15: 对外贸易和国际金融
16: 政府运作和政治
17: 健康
18: 住房和社区发展
19: 移民
20: 国际事务
21: 劳工和就业
22: 法律
23: 土著美国人
24: 私人立法
25: 公共土地和自然资源
26: 科学、技术、通信
27: 社会科学和历史
28: 社会福利
29: 体育和娱乐
30: 税收
31: 交通和公共工程
32: 水资源开发

目前没有排行榜。

语言

英语

数据集结构

数据实例

index 11047 id H.R.4536 policy_areas Social Welfare cur_summary Welfare for Needs not Weed Act This bill proh... cur_text To prohibit assistance provided under the prog... title Welfare for Needs not Weed Act titles_official To prohibit assistance provided under the prog... titles_short Welfare for Needs not Weed Act sponsor_name Rep. Rice, Tom sponsor_party R sponsor_state SC Name: 0, dtype: object

数据字段

index: 数字索引
id: 唯一的法案ID，字符串格式
policy_areas: 主要政策领域，字符串格式。这是分类标签。
cur_summary: 法案的最新摘要，字符串格式。
cur_text: 法案的最新文本，字符串格式。
title: 法案的核心标题，字符串格式。
titles_official: 法案的所有官方标题，字符串格式。
titles_short: 法案的所有简短标题，字符串格式。
sponsor_name: 主要代表的名称，字符串格式。
sponsor_party: 主要代表的党派，字符串格式。
sponsor_state: 主要代表的州，字符串格式。

数据分割

数据集使用分层抽样方法分为训练集和测试集，以解决类别不平衡问题。使用scikit-learn，四分之一的数据（按类别）保留用于测试：

train_ix, test_ix = train_test_split(ixs, test_size=0.25, stratify=df[y], random_state=1234567)

数据集创建

策划理由

该数据集是为了在NLP和立法之间提供一个新的数据集而创建的。使用这些数据进行简单的主题分类似乎是一个实际的第一步。

源数据

初始数据收集和规范化

数据从congress.gov收集，并进行了最小程度的预处理。

源语言生产者

国会研究服务或其他国会工作人员。

注释

注释者

国会工作人员

个人和敏感信息

无，这是通过congress.gov公开可用的文本。

附加信息

许可信息

MIT许可证

5,000+

优质数据集

54 个

任务类型

进入经典数据集