five

hheiden/us-congress-117-bills

收藏
Hugging Face2023-10-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hheiden/us-congress-117-bills
下载链接
链接失效反馈
官方服务:
资源简介:
US 117th Congress Bills数据集包含了第117届美国国会(2021-2022年)期间提出的所有众议院决议、众议院联合决议、参议院决议和参议院联合决议。该数据集的任务是将每项法案归类到33个主要政策领域之一。数据集分为训练集和测试集,分别包含11,389和3,797项法案。数据字段包括法案的唯一ID、政策领域、最新摘要、文本、标题、官方标题、短标题、主要提案人姓名、党派和州等信息。数据集是从congress.gov收集的,经过最小化预处理,旨在为NLP和立法交叉领域提供新的数据集。
提供机构:
hheiden
原始信息汇总

数据集卡片 for US 117th Congress Bills

数据集描述

数据集概述

US 117th Congress Bills 数据集是收集了第117届国会(2021-2022年)期间提出的所有众议院决议、众议院联合决议、参议院决议和参议院联合决议的集合。任务是将每个法案分类到三十三个主要政策领域之一。训练集包含11,389个法案,测试集包含3,797个法案。

支持的任务和排行榜

  • text-classification: 目标是将每个法案分类到三十三个主要政策领域之一。数据集包含文本标签(policy_areas)和类别整数(y)。

这些类别对应于:

  • 0: 农业和食品
  • 1: 动物
  • 2: 武装部队和国家安全
  • 3: 艺术、文化、宗教
  • 4: 公民权利和自由、少数族裔问题
  • 5: 商业
  • 6: 国会
  • 7: 犯罪和执法
  • 8: 经济和公共财政
  • 9: 教育
  • 10: 应急管理
  • 11: 能源
  • 12: 环境保护
  • 13: 家庭
  • 14: 金融和金融部门
  • 15: 对外贸易和国际金融
  • 16: 政府运作和政治
  • 17: 健康
  • 18: 住房和社区发展
  • 19: 移民
  • 20: 国际事务
  • 21: 劳工和就业
  • 22: 法律
  • 23: 土著美国人
  • 24: 私人立法
  • 25: 公共土地和自然资源
  • 26: 科学、技术、通信
  • 27: 社会科学和历史
  • 28: 社会福利
  • 29: 体育和娱乐
  • 30: 税收
  • 31: 交通和公共工程
  • 32: 水资源开发

目前没有排行榜。

语言

英语

数据集结构

数据实例

index 11047 id H.R.4536 policy_areas Social Welfare cur_summary Welfare for Needs not Weed Act This bill proh... cur_text To prohibit assistance provided under the prog... title Welfare for Needs not Weed Act titles_official To prohibit assistance provided under the prog... titles_short Welfare for Needs not Weed Act sponsor_name Rep. Rice, Tom sponsor_party R sponsor_state SC Name: 0, dtype: object

数据字段

  • index: 数字索引
  • id: 唯一的法案ID,字符串格式
  • policy_areas: 主要政策领域,字符串格式。这是分类标签。
  • cur_summary: 法案的最新摘要,字符串格式。
  • cur_text: 法案的最新文本,字符串格式。
  • title: 法案的核心标题,字符串格式。
  • titles_official: 法案的所有官方标题,字符串格式。
  • titles_short: 法案的所有简短标题,字符串格式。
  • sponsor_name: 主要代表的名称,字符串格式。
  • sponsor_party: 主要代表的党派,字符串格式。
  • sponsor_state: 主要代表的州,字符串格式。

数据分割

数据集使用分层抽样方法分为训练集和测试集,以解决类别不平衡问题。使用scikit-learn,四分之一的数据(按类别)保留用于测试:

train_ix, test_ix = train_test_split(ixs, test_size=0.25, stratify=df[y], random_state=1234567)

数据集创建

策划理由

该数据集是为了在NLP和立法之间提供一个新的数据集而创建的。使用这些数据进行简单的主题分类似乎是一个实际的第一步。

源数据

初始数据收集和规范化

数据从congress.gov收集,并进行了最小程度的预处理。

源语言生产者

国会研究服务或其他国会工作人员。

注释

注释者

国会工作人员

个人和敏感信息

无,这是通过congress.gov公开可用的文本。

附加信息

许可信息

MIT许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作