FiscalNote/billsum
收藏Hugging Face2024-03-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/FiscalNote/billsum
下载链接
链接失效反馈官方服务:
资源简介:
BillSum数据集是一个用于美国国会和加利福尼亚州法案摘要生成的数据集。数据集包含三个主要特征:text(法案文本)、summary(法案摘要)和title(法案标题)。数据集分为训练集、测试集和加利福尼亚测试集,分别包含18949、3269和1237个样本。数据集的来源包括美国政府出版办公室提供的Govinfo服务和加利福尼亚州立法机构的网站。
The BillSum dataset is a benchmark dataset for bill summarization tasks targeting bills from the United States Congress and the California State Legislature. It includes three core features: `text` (full bill text), `summary` (official bill summary), and `title` (bill title). The dataset is split into three subsets: the training set, the test set, and the California test set, which contain 18,949, 3,269, and 1,237 samples respectively. The dataset is sourced from the Govinfo service provided by the United States Government Publishing Office and the official website of the California State Legislature.
提供机构:
FiscalNote
原始信息汇总
数据集概述
基本信息
- 数据集名称: BillSum
- 语言: 英语
- 许可证: CC0-1.0
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 摘要生成
- 标签: bills-summarization
数据集结构
特征
- text: 字符串类型,表示法案文本。
- summary: 字符串类型,表示法案摘要。
- title: 字符串类型,表示法案标题。
数据分割
- train: 包含18949个样本,大小为219596090字节。
- test: 包含3269个样本,大小为37866257字节。
- ca_test: 包含1237个样本,大小为14945291字节。
数据集创建
源数据
- 数据来源:
- 美国法案数据来自Govinfo服务,由美国政府出版局(GPO)提供,使用CC0-1.0许可证。
- 加利福尼亚州法案数据来自加州立法机构的网站。
引用信息
@inproceedings{kornilova-eidelman-2019-billsum, title = "{B}ill{S}um: A Corpus for Automatic Summarization of {US} Legislation", author = "Kornilova, Anastassia and Eidelman, Vladimir", editor = "Wang, Lu and Cheung, Jackie Chi Kit and Carenini, Giuseppe and Liu, Fei", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D19-5406", doi = "10.18653/v1/D19-5406", pages = "48--56", eprint={1910.00523}, archivePrefix={arXiv}, primaryClass={cs.CL}, }
搜集汇总
数据集介绍

构建方式
BillSum数据集的构建,旨在汇聚美国国会及加州州立法案文本及其摘要,以便于自动摘要模型的训练与评估。该数据集由三部分组成:美国训练法案、美国测试法案和加州测试法案。美国法案数据来源于美国政府出版办公室(GPO)提供的CC0-1.0许可的Govinfo服务,加州法案数据则来自2015-2016立法会期的立法机构网站。
特点
BillSum数据集以其单一的英文语种和单语种特性而显著,包含了法案文本、法案摘要和法案标题等字段。数据集划分为训练集、测试集和加州测试集,总计超过272万字的文本内容,为研究者提供了丰富的立法文本资源。此外,针对美国法案,数据集还额外提供了文本长度和摘要长度信息。
使用方法
使用BillSum数据集,研究者可以轻松加载包含文本、摘要和标题的JSON格式数据。数据集可通过HuggingFace的datasets库进行下载和加载,支持摘要生成等任务,且评估指标采用Rouge,便于模型性能的量化评估。
背景与挑战
背景概述
BillSum数据集,专注于美国国会及加州州立法案的自动摘要,由FiscalNote公司创建于2019年。该数据集的构建旨在促进立法文本自动摘要技术的发展,以辅助法律专业人士快速理解法案内容。数据集涵盖了美国国会法案和加州法案的文本及其摘要,共计约27万余条数据,采用CC0-1.0协议开放使用。主要研究人员包括Anastassia Kornilova和Vladimir Eidelman,他们的研究成果在多个学术会议上发表,为立法文本摘要领域的研究提供了重要基础。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 如何确保摘要的准确性和全面性,以反映法案的核心内容;2) 处理法律文本特有的专业术语和复杂结构,保证摘要的质量;3) 数据收集和标注过程中,保证信息的真实性和中立性,避免引入个人或团体偏见。此外,数据集在实际应用中面临的挑战包括:如何适应不断变化的立法语言和格式,以及如何处理不同立法体之间的差异,如州与联邦立法之间的区别。
常用场景
经典使用场景
在文本摘要研究领域,BillSum数据集以其对美國國會及加州州議會法案的摘要而独具价值。该数据集的经典使用场景在于训练自然语言处理模型以自动生成法案的摘要文本,从而提高立法文件的可读性和便捷性。
解决学术问题
BillSum数据集解决了学术研究中自动摘要生成面临的实际问题,如如何从冗长的立法文本中提取核心内容,形成简洁明了的摘要。这对于法律信息检索、政策分析和立法研究等领域具有重要的学术意义和应用价值。
衍生相关工作
基于BillSum数据集,研究者们衍生出了一系列相关工作,包括但不限于改进摘要生成算法、分析立法文本的语言特征以及探讨法案摘要对公众理解政策的影响等,这些工作进一步拓展了该数据集的应用领域和研究深度。
以上内容由遇见数据集搜集并总结生成



