hyperdemocracy/usc-unified|美国国会数据集|法案数据数据集
收藏数据集概述
数据集描述
该数据集是提供美国国会数据的系列数据集之一,涵盖了第113至118届国会的统一元数据和文本版本。数据来源于美国政府出版办公室(GPO)的GovInfo批量数据存储库,原始数据为XML格式。
数据集组成
数据集分为多个部分,每个部分对应一个国会届数,具体包括:
- 第113届国会
- 第114届国会
- 第115届国会
- 第116届国会
- 第117届国会
- 第118届国会
数据文件
每个国会届数的数据文件存储在对应的Parquet文件中,路径如下:
- 第113届国会:
data/usc-113-unified.parquet
- 第114届国会:
data/usc-114-unified.parquet
- 第115届国会:
data/usc-115-unified.parquet
- 第116届国会:
data/usc-116-unified.parquet
- 第117届国会:
data/usc-117-unified.parquet
- 第118届国会:
data/usc-118-unified.parquet
列描述
数据集包含以下列:
legis_id
:每个法案的唯一ID,格式为{congress_num}-{legis_type}-{legis_num}
congress_num
:法案所属的国会届数legis_type
:法案类型,包括hr
,hres
,hconres
,hjres
,s
,sres
,sconres
,sjres
legis_num
:每个国会和类型的法案的递增编号bulk_path
:批量下载时的XML文件路径lastmod
:批量下载时的最后修改日期bs_xml
:billstatus XML文件的内容bs_json
:billstatus XML解析为JSON的内容tvs
:该法案的所有文本版本
示例
数据集按国会届数分为多个部分,可以使用以下代码加载: python from datasets import load_dataset
加载每个国会届数的数据到DatasetDict
中
dsd = load_dataset(path="hyperdemocracy/usc-unified")
加载单个国会届数的数据到Dataset
中
ds = load_dataset(path="hyperdemocracy/usc-unified", split=117)
加载所有国会届数的数据到单个Dataset
中
ds = load_dataset(path="hyperdemocracy/usc-unified", split="all")
国会届数与时间映射
国会届数 | 年份 | 元数据 | 文本 |
---|---|---|---|
118 | 2023-2024 | True | True |
117 | 2021-2022 | True | True |
116 | 2019-2020 | True | True |
115 | 2017-2018 | True | True |
114 | 2015-2016 | True | True |
113 | 2013-2014 | True | True |

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录