launch/gov_report

Name: launch/gov_report
Creator: launch
Published: 2022-11-09 01:58:24
License: 暂无描述

Hugging Face2022-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/launch/gov_report

下载链接

链接失效反馈

官方服务：

资源简介：

GovReport数据集由美国政府研究机构（如国会研究服务局和美国政府问责办公室）编写的报告及其摘要组成。与其他长文档摘要数据集相比，该数据集的摘要和文档更长，需要更多的上下文阅读来覆盖需要总结的关键词。数据集包含三个配置：plain_text（默认）、plain_text_with_recommendations和structure，分别对应不同的数据格式。数据集的语言为英语，大小为10K到100K之间，许可证为CC BY 4.0。

The GovReport dataset comprises reports and their abstracts authored by U.S. government research institutions including the Congressional Research Service and the Government Accountability Office. Compared with other long-document summarization datasets, this dataset features longer documents and their corresponding abstracts, requiring more contextual reading to cover all key terms that need to be summarized. The dataset includes three configurations: plain_text (default), plain_text_with_recommendations, and structure, each corresponding to distinct data formats. The dataset is in English, with a size ranging from 10K to 100K, and is licensed under CC BY 4.0.

提供机构：

launch

原始信息汇总

数据集概述

数据集名称

GovReport

数据集摘要

内容来源：政府报告数据集包含由政府研究机构（如国会研究服务部和美国政府问责局）编写的报告及其相关摘要。
特点：与其他长文档摘要数据集相比，政府报告数据集具有更长的摘要和文档，需要更多的上下文阅读来涵盖要摘要的关键词。

版本信息

版本：1.0.1（默认），去除多余的空格；1.0.0，原始论文中使用的数据集。

支持的任务

任务：摘要生成

语言

语言：英语

数据集结构

配置：
- plain_text（默认）：原始论文中使用的文本到文本摘要设置。
- plain_text_with_recommendations：包含“GAO建议”的文本到文本摘要设置。
- structure：包含部分结构的数据。

数据实例

示例结构：
- plain_text & plain_text_with_recommendations：包含id, document, summary字段。
- structure：包含id, document_sections（包含title, paragraphs, depth）, summary_sections（包含title, paragraphs）字段。

数据字段

plain_text & plain_text_with_recommendations：
- id: 字符串类型。
- document: 字符串类型。
- summary: 字符串类型。
structure：
- id: 字符串类型。
- document_sections: 字典类型，包含title, paragraphs, depth列表。
- summary_sections: 字典类型，包含title, paragraphs列表。

数据分割

训练集：17519
验证集：974
测试集：973

许可证

许可证：CC BY 4.0

引用信息

@inproceedings{huang-etal-2021-efficient, title = "Efficient Attentions for Long Document Summarization", author = "Huang, Luyang and Cao, Shuyang and Parulian, Nikolaus and Ji, Heng and Wang, Lu", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.112", doi = "10.18653/v1/2021.naacl-main.112", pages = "1419--1436", abstract = "The quadratic computational and memory complexities of large Transformers have limited their scalability for long document summarization. In this paper, we propose Hepos, a novel efficient encoder-decoder attention with head-wise positional strides to effectively pinpoint salient information from the source. We further conduct a systematic study of existing efficient self-attentions. Combined with Hepos, we are able to process ten times more tokens than existing models that use full attentions. For evaluation, we present a new dataset, GovReport, with significantly longer documents and summaries. Results show that our models produce significantly higher ROUGE scores than competitive comparisons, including new state-of-the-art results on PubMed. Human evaluation also shows that our models generate more informative summaries with fewer unfaithful errors.", }

搜集汇总

数据集介绍

构建方式

GovReport数据集的构建基于政府研究机构发布的报告，包括国会研究服务部和美国政府问责局的报告。这些报告由专业编辑生成，确保了数据的高质量和权威性。数据集的构建旨在提供一个用于长文档摘要任务的资源，特别是针对那些需要更多上下文来覆盖关键信息的文档。通过收集和整理这些报告及其摘要，数据集为研究者提供了一个丰富的语料库，用于训练和评估长文档摘要模型。

特点

GovReport数据集的主要特点在于其文档和摘要的长度显著超过其他长文档摘要数据集，这使得模型需要处理更多的上下文信息。此外，数据集提供了三种不同的配置，包括纯文本、带有建议的纯文本以及结构化数据，以满足不同研究需求。数据集的结构化配置还包含了文档和摘要的章节信息，进一步增强了其应用的灵活性和深度。

使用方法

使用GovReport数据集时，研究者可以通过设置`load_dataset`函数的`revision`和`name`参数来选择不同的版本和配置。数据集支持的任务主要是长文档摘要，研究者可以利用训练、验证和测试集来训练和评估模型。数据集的结构化配置特别适合需要处理复杂文档结构的应用，如法律文档分析或政策报告摘要生成。

背景与挑战

背景概述

政府报告数据集（GovReport）由政府研究机构如国会研究服务部和美国政府问责办公室撰写，旨在为长文档摘要任务提供丰富的资源。该数据集的核心研究问题聚焦于如何高效地从长篇文档中提取关键信息并生成摘要。其创建时间为2021年，主要研究人员包括黄鲁阳、曹书阳、Parulian Nikolaus、Ji Heng和Wang Lu，他们在NAACL 2021会议上发表了相关研究成果。GovReport数据集的推出对长文档摘要领域产生了深远影响，尤其是在处理长篇文档和生成高质量摘要方面，为研究者提供了新的挑战和机遇。

当前挑战

GovReport数据集面临的挑战主要集中在两个方面。首先，长文档摘要任务本身具有较高的复杂性，要求模型能够处理大量的上下文信息，并从中提取出关键内容。其次，数据集的构建过程中，如何确保摘要的准确性和完整性是一个重要挑战。此外，由于数据来源于政府机构，确保数据的权威性和无偏性也是一大难点。这些挑战不仅推动了长文档摘要技术的发展，也为相关领域的研究提供了新的视角和方法。

常用场景

经典使用场景

在自然语言处理领域，launch/gov_report数据集的经典使用场景主要集中在长文档摘要任务上。该数据集包含了由美国国会研究服务部和美国政府问责办公室撰写的政府报告及其摘要，这些文档和摘要通常具有较长的篇幅，要求模型能够处理大量的上下文信息以生成准确的摘要。通过使用该数据集，研究者可以训练和评估模型在处理复杂、冗长的文本时的表现，尤其是在需要高度概括和提炼关键信息的场景中。

实际应用

在实际应用中，launch/gov_report数据集的应用场景广泛，包括但不限于政府报告的自动摘要生成、政策分析和决策支持系统。通过自动生成政府报告的摘要，可以大幅提高政策分析人员的工作效率，帮助他们快速获取关键信息。此外，该数据集还可用于法律文书、医学文献等领域的自动摘要生成，为相关行业提供技术支持，提升信息处理的自动化水平。

衍生相关工作

launch/gov_report数据集的发布催生了一系列相关的经典工作，特别是在长文档摘要和高效注意力机制的研究方面。例如，Huang等人提出的Hepos模型，通过引入头位步长机制，显著提高了模型处理长文档的能力。此外，该数据集还促进了其他高效注意力机制的研究，如局部注意力、稀疏注意力等，推动了长文档处理技术的整体进步。这些工作不仅在学术界产生了广泛影响，也为实际应用提供了技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集