hheiden/us-congress-117-bills
收藏数据集卡片 for US 117th Congress Bills
数据集描述
数据集概述
US 117th Congress Bills 数据集是收集了第117届国会(2021-2022年)期间提出的所有众议院决议、众议院联合决议、参议院决议和参议院联合决议的集合。任务是将每个法案分类到三十三个主要政策领域之一。训练集包含11,389个法案,测试集包含3,797个法案。
支持的任务和排行榜
text-classification: 目标是将每个法案分类到三十三个主要政策领域之一。数据集包含文本标签(policy_areas)和类别整数(y)。
这些类别对应于:
- 0: 农业和食品
- 1: 动物
- 2: 武装部队和国家安全
- 3: 艺术、文化、宗教
- 4: 公民权利和自由、少数族裔问题
- 5: 商业
- 6: 国会
- 7: 犯罪和执法
- 8: 经济和公共财政
- 9: 教育
- 10: 应急管理
- 11: 能源
- 12: 环境保护
- 13: 家庭
- 14: 金融和金融部门
- 15: 对外贸易和国际金融
- 16: 政府运作和政治
- 17: 健康
- 18: 住房和社区发展
- 19: 移民
- 20: 国际事务
- 21: 劳工和就业
- 22: 法律
- 23: 土著美国人
- 24: 私人立法
- 25: 公共土地和自然资源
- 26: 科学、技术、通信
- 27: 社会科学和历史
- 28: 社会福利
- 29: 体育和娱乐
- 30: 税收
- 31: 交通和公共工程
- 32: 水资源开发
目前没有排行榜。
语言
英语
数据集结构
数据实例
index 11047 id H.R.4536 policy_areas Social Welfare cur_summary Welfare for Needs not Weed Act This bill proh... cur_text To prohibit assistance provided under the prog... title Welfare for Needs not Weed Act titles_official To prohibit assistance provided under the prog... titles_short Welfare for Needs not Weed Act sponsor_name Rep. Rice, Tom sponsor_party R sponsor_state SC Name: 0, dtype: object
数据字段
index: 数字索引id: 唯一的法案ID,字符串格式policy_areas: 主要政策领域,字符串格式。这是分类标签。cur_summary: 法案的最新摘要,字符串格式。cur_text: 法案的最新文本,字符串格式。title: 法案的核心标题,字符串格式。titles_official: 法案的所有官方标题,字符串格式。titles_short: 法案的所有简短标题,字符串格式。sponsor_name: 主要代表的名称,字符串格式。sponsor_party: 主要代表的党派,字符串格式。sponsor_state: 主要代表的州,字符串格式。
数据分割
数据集使用分层抽样方法分为训练集和测试集,以解决类别不平衡问题。使用scikit-learn,四分之一的数据(按类别)保留用于测试:
train_ix, test_ix = train_test_split(ixs, test_size=0.25, stratify=df[y], random_state=1234567)
数据集创建
策划理由
该数据集是为了在NLP和立法之间提供一个新的数据集而创建的。使用这些数据进行简单的主题分类似乎是一个实际的第一步。
源数据
初始数据收集和规范化
数据从congress.gov收集,并进行了最小程度的预处理。
源语言生产者
国会研究服务或其他国会工作人员。
注释
注释者
国会工作人员
个人和敏感信息
无,这是通过congress.gov公开可用的文本。
附加信息
许可信息
MIT许可证



