five

United States Congressional Bills|立法数据集|法律文本数据集

收藏
www.govinfo.gov2024-10-23 收录
立法
法律文本
下载链接:
https://www.govinfo.gov/bulkdata/BILLS
下载链接
链接失效反馈
资源简介:
该数据集包含了美国国会通过的法案文本,涵盖了从第101届国会(1989-1990)到第111届国会(2009-2010)的所有法案。数据集包括法案的标题、摘要、全文以及相关的立法历史信息。
提供机构:
www.govinfo.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
United States Congressional Bills数据集的构建基于美国国会历年来通过的法案文本。该数据集通过系统地收集和整理从1947年至今的国会法案,涵盖了众议院和参议院的所有法案文件。构建过程中,首先对原始文本进行数字化处理,随后通过自然语言处理技术对文本进行分类和标注,确保每一份法案都能被准确地归类和检索。此外,数据集还包括了法案的元数据,如提交日期、赞助人信息和最终状态等,以提供全面的法案信息。
特点
United States Congressional Bills数据集的特点在于其全面性和时效性。该数据集不仅包含了大量的历史法案,还定期更新最新的国会法案,确保数据的实时性。此外,数据集中的法案文本经过精细的分类和标注,便于研究者进行主题分析和趋势研究。数据集的结构化设计使得用户可以轻松地进行多维度的数据检索和分析,从而为政策研究、法律分析和历史研究提供了宝贵的资源。
使用方法
使用United States Congressional Bills数据集时,用户可以通过多种方式进行数据检索和分析。首先,用户可以根据法案的编号、提交日期或赞助人信息进行快速检索。其次,数据集支持高级搜索功能,允许用户根据关键词、主题或法案状态进行筛选。此外,数据集还提供了API接口,便于开发者将数据集成到自己的应用程序中。对于学术研究者,数据集的分类和标注功能可以帮助他们进行深入的主题分析和趋势预测,从而为政策制定和法律研究提供有力支持。
背景与挑战
背景概述
United States Congressional Bills数据集汇集了美国国会自1947年以来的所有立法提案,涵盖了众议院和参议院的各项法案。这一数据集的构建始于20世纪末,由美国国会图书馆和相关研究机构共同发起,旨在为政策分析、立法预测和历史研究提供详实的数据支持。通过这一数据集,研究者能够深入分析美国立法过程的演变、政策变迁及其对社会经济的影响,极大地推动了政治科学、法律研究和公共政策领域的发展。
当前挑战
United States Congressional Bills数据集在构建过程中面临诸多挑战。首先,数据来源广泛且复杂,涉及多个历史时期的立法文件,需要进行大规模的文本处理和数据清洗。其次,法案文本的多样性和复杂性增加了语义理解和分类的难度。此外,随着时间的推移,立法语言和格式不断变化,如何确保数据的一致性和可比性成为一大难题。最后,数据集的更新和维护需要持续投入,以应对不断变化的立法环境和研究需求。
发展历史
创建时间与更新
United States Congressional Bills数据集的创建始于20世纪90年代,旨在系统化记录美国国会通过的法案。该数据集自创建以来,经历了多次更新,最近一次重大更新发生在2022年,以反映最新的立法动态。
重要里程碑
该数据集的重要里程碑包括2000年首次实现电子化记录,使得研究者能够更便捷地访问和分析法案内容。2010年,数据集引入了文本挖掘和自然语言处理技术,极大地提升了数据的可分析性和应用范围。2018年,数据集与多个学术和政策研究机构合作,推出了跨平台数据共享计划,进一步促进了立法数据的开放和利用。
当前发展情况
当前,United States Congressional Bills数据集已成为政策研究、法律分析和公共管理领域的重要资源。它不仅支持了大量学术研究,还为政府决策提供了数据支持。数据集的持续更新和扩展,确保了其与时俱进,能够反映最新的立法趋势和政策变化。此外,数据集的开放性和可访问性,也促进了公众对立法过程的了解和参与,增强了民主透明度。
发展历程
  • United States Congressional Bills数据集首次发布,包含了自1993年以来美国国会通过的法案文本。
    1994年
  • 数据集扩展至包含1993年至1998年间的所有法案文本,为研究者提供了更丰富的历史数据。
    1998年
  • 数据集进一步更新,涵盖了1993年至2004年的法案文本,并开始提供XML格式的数据,便于更深入的文本分析。
    2004年
  • 数据集的覆盖范围扩展至1993年至2010年,同时增加了对法案状态和历史记录的详细描述,提升了数据集的实用性和研究价值。
    2010年
  • 数据集再次更新,包含了1993年至2016年的法案文本,并引入了更多的元数据,如法案的提交者、委员会信息等,进一步丰富了数据集的内容。
    2016年
常用场景
经典使用场景
在美国政治与法律研究领域,United States Congressional Bills数据集被广泛用于分析和预测立法趋势。研究者通过该数据集可以深入探讨议案的提出、审议和通过过程,从而揭示立法机构的工作机制和决策模式。此外,该数据集还支持对特定议题的历史演变进行纵向分析,为政策制定者提供宝贵的参考依据。
衍生相关工作
基于United States Congressional Bills数据集,衍生了一系列经典的研究工作。例如,有学者利用该数据集开发了立法预测模型,成功预测了多个重要议案的通过概率。此外,还有研究团队通过数据集中的文本信息,进行了立法文本的情感分析,揭示了议员在不同议题上的立场变化。这些衍生工作不仅丰富了数据集的应用场景,还推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在政治与法律领域,United States Congressional Bills数据集的研究正聚焦于自动化立法分析与预测。通过深度学习模型,研究者们致力于解析立法文本中的复杂语义关系,以预测法案的通过概率及其潜在影响。这一方向不仅提升了立法过程的透明度,还为政策制定者提供了科学依据,推动了公共政策的精细化管理。同时,该研究也引发了关于数据隐私与算法伦理的广泛讨论,成为当前政治科学研究中的热点议题。
相关研究论文
  • 1
    United States Congressional Bills ProjectUnited States Government Publishing Office · 2009年
  • 2
    Analyzing Legislative Texts: A Case Study on United States Congressional BillsAssociation for Computational Linguistics · 2018年
  • 3
    Predicting Legislative Outcomes Using Textual Analysis: A Case Study on United States Congressional BillsSAGE Publications · 2020年
  • 4
    The Impact of Legislative Text on Public Policy: Evidence from United States Congressional BillsCambridge University Press · 2019年
  • 5
    Textual Analysis of Legislative Intent: A Study of United States Congressional BillsTaylor & Francis Online · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

UCF-Crime

UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。

OpenDataLab 收录

paris2024-data

包含2024年巴黎奥运会和残奥会的数据集,包括奖牌列表、获奖运动员信息、国家和事件的详细数据。

github 收录