launch/gov_report_qs

Name: launch/gov_report_qs
Creator: launch
Published: 2022-11-09 01:58:19
License: 暂无描述

Hugging Face2022-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/launch/gov_report_qs

下载链接

链接失效反馈

官方服务：

资源简介：

GovReport-QS数据集基于GovReport数据集，增加了政府报告的注释问题-摘要层次结构，以促进内容参与和理解。数据集包含两种配置：段落级别和文档级别。段落级别配置包含与注释摘要段落对齐的文档部分，而文档级别配置包含文档中的所有部分。数据集主要用于摘要生成任务，语言为英语，许可证为CC BY 4.0。

The GovReport-QS dataset is derived from the GovReport dataset, with annotated question-summary hierarchies for government reports added to facilitate content engagement and comprehension. This dataset provides two configurations: paragraph-level and document-level. The paragraph-level configuration includes document sections aligned with annotated summary paragraphs, while the document-level configuration covers all sections within the document. The dataset is primarily designed for summarization tasks, with its content in English and licensed under CC BY 4.0.

提供机构：

launch

原始信息汇总

数据集概述

数据集名称

GovReport-QS

数据集摘要

基于GovReport数据集，GovReport-QS额外包含了政府报告的注释问题-摘要层次结构。这种层次结构主动突出了文档结构，进一步促进内容参与和理解。

语言

英语

许可证

CC BY 4.0

多语言性

单语种

大小分类

10K<n<100K

源数据集

launch/gov_report

任务类别

摘要生成

数据集结构

数据实例配置

paragraph (默认): 段落级别的注释数据
document: 同一文档的段落级别注释数据聚合

数据字段

paragraph

doc_id: 字符串类型
summary_paragraph_index: 整数类型
document_sections: 字典类型，包含标题、段落和深度信息
question_summary_pairs: 字典类型，包含问题、摘要和父对索引

document

id: 字符串类型
document_sections: 字典类型，包含标题、段落、深度和校准信息
question_summary_pairs: 字典类型，包含问题、摘要、父对索引和摘要段落索引

数据分割

paragraph

训练集: 17519
验证集: 974
测试集: 973

document

训练集: 1371
验证集: 171
测试集: 172

数据集创建

源语言生产者

国会研究服务部和美国政府问责局的编辑

许可证信息

CC BY 4.0

引用信息

@inproceedings{cao-wang-2022-hibrids, title = "{HIBRIDS}: Attention with Hierarchical Biases for Structure-aware Long Document Summarization", author = "Cao, Shuyang and Wang, Lu", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.58", pages = "786--807", abstract = "Document structure is critical for efficient information consumption. However, it is challenging to encode it efficiently into the modern Transformer architecture. In this work, we present HIBRIDS, which injects Hierarchical Biases foR Incorporating Document Structure into attention score calculation. We further present a new task, hierarchical question-summary generation, for summarizing salient content in the source document into a hierarchy of questions and summaries, where each follow-up question inquires about the content of its parent question-summary pair. We also annotate a new dataset with 6,153 question-summary hierarchies labeled on government reports. Experiment results show that our model produces better question-summary hierarchies than comparisons on both hierarchy quality and content coverage, a finding also echoed by human judges. Additionally, our model improves the generation of long-form summaries from long government reports and Wikipedia articles, as measured by ROUGE scores.", }

搜集汇总

数据集介绍

构建方式

在政府报告自动摘要领域，GovReport-QS数据集的构建体现了对文档结构深度解析的追求。该数据集以GovReport为基础，由专家精心标注，专门引入了问题-摘要层次结构。其构建过程聚焦于政府报告的长文档特性，通过人工标注为每个摘要段落创建了多级问答对，这些问答对以树状结构组织，直观反映了文档的章节逻辑。数据来源于美国国会研究服务局和政府问责办公室的官方报告，确保了内容的权威性与专业性。数据集提供了段落和文档两种配置，分别对应不同粒度的结构信息，为模型理解长文档的层次化语义提供了坚实基础。

使用方法

使用GovReport-QS数据集时，研究者可通过Hugging Face的`load_dataset`函数便捷加载，并需在参数中指定‘paragraph’或‘document’配置以选择所需的数据粒度。‘paragraph’配置提供与特定摘要段落对齐的章节信息，适用于段落级别的层次化摘要生成研究；而‘document’配置则聚合了全文所有章节，适用于文档级别的整体结构建模。数据已预先划分为训练集、验证集和测试集，便于模型训练与评估。该数据集主要服务于摘要生成任务，特别是那些需要建模文档层次结构的先进方法，例如基于注意力机制融入层次偏置的模型，能够有效提升长文档的内容覆盖度与摘要的逻辑性。

背景与挑战

背景概述

在自然语言处理领域，长文档摘要生成一直是一项极具挑战性的任务，尤其是在处理结构复杂、信息密集的政府报告时。GovReport-QS数据集于2022年由Shuyang Cao和Lu Wang等研究人员基于GovReport数据集构建，旨在通过引入层次化的问题-摘要对标注，显式地编码文档结构信息。该数据集源自美国国会研究服务处和政府问责办公室编辑的官方报告，其核心研究问题聚焦于如何利用层次化偏差注意力机制，提升长文档摘要的结构感知能力与内容覆盖度，为文档理解与信息抽取研究提供了重要的数据支撑。

当前挑战

该数据集致力于解决长文档结构感知摘要生成的领域挑战，其核心在于如何有效建模文档的层次化语义结构，并生成连贯且覆盖全面的问题-摘要层次。在构建过程中，专家标注者需面对政府报告特有的复杂组织结构与专业术语，确保问题-摘要对既能准确反映原文内容，又能形成逻辑严密的层次关系。此外，数据标注需兼顾段落级与文档级的一致性，这对标注规范与质量控制提出了较高要求。

常用场景

经典使用场景

在政府报告自动摘要领域，GovReport-QS数据集以其层次化的问题-摘要对结构，为长文档摘要任务提供了结构化建模的典范。该数据集通过专家标注的问答层次，将冗长复杂的政府报告内容分解为逻辑清晰的树状结构，使得模型能够学习文档的内在组织方式，从而生成更具连贯性和信息密度的摘要。这种层次化表示不仅提升了摘要的可读性，也为理解长文档的宏观架构与微观细节提供了有效途径。

解决学术问题

该数据集主要解决了长文档摘要中结构信息缺失的关键学术问题。传统摘要模型在处理政府报告等长篇文本时，往往难以捕捉文档的层级逻辑，导致生成的摘要结构松散、信息覆盖不全。GovReport-QS通过引入层次化的问题-摘要对，为模型提供了显式的结构监督信号，使得研究能够探索如何将文档的章节、段落关系编码到神经网络的注意力机制中，从而提升摘要的结构一致性与内容完整性，推动了结构感知摘要这一研究方向的发展。

实际应用

在实际应用中，GovReport-QS数据集为政府机构、政策分析机构和公共信息平台提供了技术支撑。基于该数据集训练的模型能够自动将复杂的政府工作报告、审计报告或政策文件转化为层次清晰的问答式摘要，帮助公众快速把握报告核心内容与逻辑脉络。这种应用不仅提升了政府信息的透明度和可及性，也为法律、教育等需要处理大量规范性文档的领域提供了高效的自动化信息提炼工具。

数据集最近研究