BillSum

Name: BillSum
Creator: 财政笔记研究
Published: 2019-12-04 10:50:00
License: 暂无描述

arXiv2019-12-04 更新2024-06-21 收录

下载链接：

https://github.com/FiscalNote/BillSum

下载链接

链接失效反馈

官方服务：

资源简介：

BillSum是由财政笔记研究创建的第一个专门用于美国国会和加州州法案自动摘要的数据集。该数据集包含22,218条美国国会法案和1,237条加州法案，法案长度介于5,000至20,000字符之间。数据集的创建过程涉及从美国政府出版办公室的Govinfo服务收集法案，并通过人工编写的摘要进行分割。BillSum数据集旨在解决法案文本处理和摘要生成的挑战，特别是在缺乏人工摘要的州立法机构中应用自动摘要技术。

BillSum is the first dataset specifically dedicated to automatic summarization of U.S. congressional and California state bills, created by Fiscal Notes Research. This dataset contains 22,218 U.S. congressional bills and 1,237 California state bills, with lengths ranging from 5,000 to 20,000 characters. The dataset construction process involved collecting bills from the Govinfo service of the U.S. Government Publishing Office, and pairing them with manually written summaries. The BillSum dataset aims to address the challenges in bill text processing and summarization generation, especially for applying automatic summarization techniques in state legislative bodies where manual summaries are scarce.

提供机构：

财政笔记研究

创建时间：

2019-10-02

搜集汇总

数据集介绍

构建方式

BillSum数据集的构建方式包括从美国国会和加州州议会收集法案及其参考摘要。数据集分为训练集和测试集，包含22,218个美国国会法案和1,237个加州法案及其参考摘要。美国法案从美国政府的Govinfo服务中收集，加州法案则直接从立法机构的网站抓取。为了确保数据的质量，数据集中还包含了一些用于去除重复内容的程序。

特点

BillSum数据集的特点在于它专注于中等长度的立法文本，长度在5,000到20,000个字符之间。此外，摘要的长度限制为2,000个字符。数据集的文本和摘要长度分布没有明显的相关性，这为研究特定领域和通用摘要方法提供了可能。此外，BillSum数据集在风格上与其他摘要语料库有所不同，法案通常具有嵌套的、项目符号结构，每个项目符号可以代表一个句子或短语。

使用方法

BillSum数据集的使用方法包括将其作为自动摘要模型的训练和测试数据。数据集的文本和摘要可以用于训练提取式摘要方法，例如文档上下文模型（DOC）和摘要语言模型（SUM）。此外，数据集还可以用于研究摘要语言的特点，例如通过KL散度分析来量化哪些单词更具有摘要性质。BillSum数据集还包含了一些用于去除重复内容的程序，以确保数据的质量。

背景与挑战

背景概述

在公共法律领域，大量可获取文档的快速增长推动了政治科学家、法学家、律师和公民等群体越来越频繁地采用计算工具来发现和消化相关信息。美国国会每年会引入超过10,000项法案，而州立法机关则会引入更多的法案。这些文档通常冗长且技术性强，使得人们难以快速识别关键细节。尽管美国每一项法案都附有国会研究服务局（CRS）撰写的人类摘要，但在大多数州和地方立法机关中却没有类似的摘要。为了鼓励对自动立法摘要的研究，我们介绍了BillSum数据集，该数据集包含一个主要语料库，其中包含22,218项美国国会法案和参考摘要，分为训练集和测试集。由于该任务的动机是将模型应用于新的立法机关，因此语料库还包含一个额外的1,237项加利福尼亚州法案和参考摘要测试集。我们建立了几个基准，并表明有大量的空间用于新的方法，这些方法更适合于总结技术性立法语言。

当前挑战

BillSum数据集的挑战包括：1)所解决的领域问题是自动总结美国国会和加利福尼亚州法案；2)构建过程中所遇到的挑战，包括处理法案的复杂格式和技术性语言，以及正确地从原始结构中提取摘要语言。

常用场景

经典使用场景

BillSum数据集在自动文本摘要领域被广泛使用，其经典应用场景包括对立法文本进行摘要。该数据集包含了大量的美国国会和加利福尼亚州法案及其摘要，为研究者提供了宝贵的资源。通过使用该数据集，研究者可以训练模型，自动从冗长的法案中提取关键信息，生成简短的摘要，帮助政治科学家、法律学者、政策制定者等快速理解法案的核心内容。

解决学术问题

BillSum数据集解决了自动摘要领域在立法文本上的应用难题。立法文本通常具有复杂的结构和专业的术语，这使得自动摘要变得更加困难。BillSum数据集为研究者提供了一个大规模的立法文本摘要数据集，使得研究者可以针对立法文本的特性进行模型训练和优化。该数据集的引入，推动了自动摘要技术在立法文本领域的应用，为政策制定和公共参与提供了重要的技术支持。

衍生相关工作

基于BillSum数据集的研究，衍生出了许多相关工作。例如，研究者使用该数据集训练了多种自动摘要模型，包括基于深度学习的模型和基于传统机器学习方法的模型。这些模型在BillSum数据集上取得了较好的效果，为自动摘要领域的研究提供了新的思路和方法。此外，还有一些研究者使用BillSum数据集研究了立法文本的特性和摘要的语言特征，为自动摘要技术的发展提供了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集