five

DeepParliament

收藏
arXiv2022-11-15 更新2024-07-18 收录
下载链接:
https://github.com/monk1337/DeepParliament
下载链接
链接失效反馈
官方服务:
资源简介:
DeepParliament是由Open Legal AI创建的法律领域基准数据集,专注于收集和分析从1986年至今的议会法案文档及其元数据。该数据集包含5329个文档,涵盖多种类型的法案,如政府法案、私人成员法案等,旨在通过机器学习模型辅助议会成员、总统及其他法律实践者进行法案审查和优先级排序,从而加速法案处理流程,提高决策质量。数据集的创建涉及从官方网站收集原始数据,并进行详细的统计和分析,以支持模型在法案状态分类等任务中的表现。

DeepParliament is a legal benchmark dataset developed by Open Legal AI, which focuses on collecting and curating parliamentary bill documents and their corresponding metadata spanning from 1986 to the present. Comprising 5,329 documents, the dataset covers a wide range of bill types including government bills, private members' bills, and others. It is designed to aid parliamentarians, presidents, and other legal practitioners in bill review and prioritization via machine learning models, thereby expediting bill processing workflows and enhancing decision-making quality. The development of this dataset entails harvesting raw data from official websites, followed by comprehensive statistical and analytical work to support the performance of machine learning models in tasks such as bill status classification.
提供机构:
Open Legal AI
创建时间:
2022-11-15
原始信息汇总

DeepParliament

简介

该仓库提供了EMNLP 2022论文的代码:DeepParliament: A Legal domain Benchmark & Dataset for Parliament Bills Prediction

更新的基准测试可在openlegalai.github.io/DeepParliament获取。

搜集汇总
数据集介绍
main_image_url
构建方式
DeepParliament数据集的构建方式主要包括数据收集、预处理和分析。首先,数据集从1986年至今的议会法案中收集了法案文档和元数据。数据收集自印度议会的官方网站,包括法案标题、类型、来源、PDF链接和状态等信息。使用pdfminer3工具从PDF文件中提取法案内容,对于一些老旧的PDF文件,使用OCR系统将图像转换为文本。然后,将PDF内容和元数据转换为CSV格式,并合并成一个数据集。在预处理阶段,删除了只包含单个标记和重复的法案文档,并清理了特殊字符和多余的空格。
特点
DeepParliament数据集的特点在于其多样性和难度。数据集包含了从1986年至今的广泛法案,包括政府法案、私人议员法案、货币法案、普通法案、财务法案和宪法修正案等。平均而言,每个句子包含3932.99个标记,文档长度较长,包含丰富的议会法案内容。此外,数据集还提供了详细的统计数据和分析,包括法案状态、法案类型和年份的分布。数据集还提供了二元分类和多类分类两个基准任务,用于评估法律领域语言模型的能力。
使用方法
DeepParliament数据集的使用方法包括以下步骤:首先,将数据集加载到相应的编程环境中。然后,选择合适的文本分类模型,如LSTM、CNN、BERT等。接下来,对数据集进行预处理,包括标记化、嵌入和分割等。然后,使用训练集对模型进行训练,并使用测试集对模型进行评估。最后,可以使用模型对新的法案文档进行预测,以帮助议员、总统和其他法律从业者评估法案通过的可能性,审查或优先考虑法案,从而提高决策质量并减少议会两院的时间和精力消耗。
背景与挑战
背景概述
随着人工智能(AI)在法律领域的应用日益广泛,自然语言处理(NLP)技术在法律文本分析中的作用日益凸显。DeepParliament数据集应运而生,该数据集汇集了法案文件和元数据,并执行了各种法案状态分类任务。DeepParliament数据集涵盖了从1986年至今的广泛法案,包含了丰富的议会法案内容信息。该数据集的创建旨在为议会法案预测提供一个标准基准,并促进法律自然语言处理(NLP)领域的研究进展。DeepParliament数据集由Open Legal AI团队创建,并首次提出了议会法案预测任务,对法律NLP社区产生了重要影响。
当前挑战
DeepParliament数据集面临的主要挑战包括:1)领域问题挑战:DeepParliament数据集旨在解决议会法案预测问题,即如何利用人工智能技术预测法案的通过、失败、撤回等状态,从而提高立法效率。2)构建挑战:DeepParliament数据集的构建过程中,面临着数据收集、预处理、模型训练等方面的挑战。例如,如何从非结构化的PDF文件中提取法案内容,如何处理不同年份法案的文本差异,以及如何选择合适的模型进行预测等。此外,DeepParliament数据集目前仅支持英文模型,未来需要扩展到其他语言。同时,数据集的规模也有限,未来需要继续添加新的法案文档。
常用场景
经典使用场景
DeepParliament 数据集在议会法案预测任务中扮演着关键角色。该数据集收集了自 1986 年至今的法案文档和元数据,用于执行各种法案状态分类任务。DeepParliament 数据集的经典使用场景包括二元分类和多类分类。二元分类任务旨在预测法案是否通过,而多类分类任务则旨在预测法案的五种状态:通过、否定、失效、移除和撤回。这些任务有助于立法者、总统和其他法律从业者评估法案通过的可能性,从而加快法案处理流程,提高决策质量,并减少议会两院的时间和精力消耗。
解决学术问题
DeepParliament 数据集解决了法律领域自然语言处理(NLP)研究中议会法案预测任务的缺失问题。该数据集为研究法案文档和元数据提供了标准基准,填补了现有研究的空白。DeepParliament 数据集包含丰富的议会法案内容信息,测试了模型在法律领域的推理能力和特定领域的能力。此外,该数据集还提出了两个新的基准:二元分类和多类分类,为法律 NLP 研究提供了新的研究方向。
衍生相关工作
DeepParliament 数据集的发布推动了法律领域自然语言处理研究的发展。基于该数据集,研究人员开发了各种模型,包括循环神经网络(RNN)、卷积神经网络(CNN)和基于 Transformer 的模型,如 BERT、RoBERTa 和 ALBERT 等。这些模型在法案状态预测任务中取得了显著的性能提升,并为法律 NLP 研究提供了新的思路和方法。此外,DeepParliament 数据集还促进了法律领域预训练模型的研发,如 LegalBERT 和 Legal-RoBERTa 等。这些预训练模型在法律文本理解和生成等方面展现出优异的性能,为法律 NLP 应用提供了强大的工具和资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作