ccdv/govreport-summarization
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ccdv/govreport-summarization
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
task_categories:
- summarization
- text-generation
task_ids: []
tags:
- conditional-text-generation
---
# GovReport dataset for summarization
Dataset for summarization of long documents.\
Adapted from this [repo](https://github.com/luyang-huang96/LongDocSum) and this [paper](https://arxiv.org/pdf/2104.02112.pdf)\
This dataset is compatible with the [`run_summarization.py`](https://github.com/huggingface/transformers/tree/master/examples/pytorch/summarization) script from Transformers if you add this line to the `summarization_name_mapping` variable:
```python
"ccdv/govreport-summarization": ("report", "summary")
```
### Data Fields
- `id`: paper id
- `report`: a string containing the body of the report
- `summary`: a string containing the summary of the report
### Data Splits
This dataset has 3 splits: _train_, _validation_, and _test_. \
Token counts with a RoBERTa tokenizer.
| Dataset Split | Number of Instances | Avg. tokens |
| ------------- | --------------------|:----------------------|
| Train | 17,517 | < 9,000 / < 500 |
| Validation | 973 | < 9,000 / < 500 |
| Test | 973 | < 9,000 / < 500 |
# Cite original article
```
@misc{huang2021efficient,
title={Efficient Attentions for Long Document Summarization},
author={Luyang Huang and Shuyang Cao and Nikolaus Parulian and Heng Ji and Lu Wang},
year={2021},
eprint={2104.02112},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
language:
- 英语
multilinguality:
- 单语言
size_categories:
- 10000 < 样本数 < 100000
task_categories:
- 摘要生成
- 文本生成
task_ids:
- 无
tags:
- 条件文本生成
---
# 用于摘要生成的GovReport数据集
本数据集面向长文档摘要生成任务。本数据集改编自该[代码仓库](https://github.com/luyang-huang96/LongDocSum)及该[学术论文](https://arxiv.org/pdf/2104.02112.pdf)。
若你在`summarization_name_mapping`变量中添加如下代码行,本数据集可与Transformers库的[`run_summarization.py`](https://github.com/huggingface/transformers/tree/master/examples/pytorch/summarization)脚本兼容:
python
"ccdv/govreport-summarization": ("report", "summary")
### 数据字段
- `id`:论文编号
- `report`:存储报告正文的字符串
- `summary`:存储报告摘要的字符串
### 数据划分
本数据集包含三个划分集:训练集(_train_)、验证集(_validation_)与测试集(_test_)。此处的Token计数基于RoBERTa分词器完成。
| 数据集划分 | 样本数量 | 平均Token数 |
| ---------- | -------- | ----------- |
| 训练集 | 17,517 | < 9,000 / < 500 |
| 验证集 | 973 | < 9,000 / < 500 |
| 测试集 | 973 | < 9,000 / < 500 |
# 引用原始文献
@misc{huang2021efficient,
title={Efficient Attentions for Long Document Summarization},
author={Luyang Huang and Shuyang Cao and Nikolaus Parulian and Heng Ji and Lu Wang},
year={2021},
eprint={2104.02112},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
提供机构:
ccdv
原始信息汇总
GovReport数据集概述
数据集基本信息
- 语言: 英语
- 多语言性: 单语种
- 大小: 10K<n<100K
- 任务类别: 摘要生成、文本生成
- 标签: 条件文本生成
数据集描述
GovReport数据集专为长文档摘要生成设计。该数据集改编自LongDocSum仓库和Efficient Attentions for Long Document Summarization论文。数据集与Transformers库中的run_summarization.py脚本兼容,需在summarization_name_mapping变量中添加以下配置:
python
"ccdv/govreport-summarization": ("report", "summary")
数据字段
id: 文档IDreport: 包含报告主体的字符串summary: 包含报告摘要的字符串
数据分割
数据集包含三个分割:训练集、验证集和测试集。所有分割的平均Token数均使用RoBERTa Tokenizer统计。
| 数据集分割 | 实例数量 | 平均Token数 |
|---|---|---|
| 训练集 | 17,517 | < 9,000 / < 500 |
| 验证集 | 973 | < 9,000 / < 500 |
| 测试集 | 973 | < 9,000 / < 500 |
搜集汇总
数据集介绍

构建方式
在政府报告自动摘要研究领域,数据集的构建质量直接关系到模型对长文档理解与概括能力的评估。GovReport数据集源自《Efficient Attentions for Long Document Summarization》论文及相关开源仓库,其构建过程系统性地收集并整理了美国国会研究服务处(CRS)发布的政府报告。这些报告作为原始长文档,由专家撰写的对应摘要构成标注对,形成了结构化的监督学习数据。数据集经过清洗与标准化处理,确保文本一致性,并依据研究惯例划分为训练集、验证集和测试集,为长文档摘要任务提供了可靠且权威的基准资源。
特点
该数据集的核心特征体现在其针对长文档摘要任务的专门化设计。文档平均长度控制在约9000个标记以内,摘要则压缩至500标记以下,这种长度配置精准匹配了模型处理长序列输入并生成凝练输出的需求。数据集规模适中,包含超过1.7万训练实例与近两千的验证测试样本,在保证数据多样性的同时避免了过度冗余。作为单语(英语)数据集,它聚焦于政府报告这一特定领域,文本具有正式、信息密集且结构严谨的风格,为研究领域自适应与复杂语义压缩提供了独特的测试平台。
使用方法
使用本数据集时,可将其无缝集成于主流深度学习框架中。例如,在Hugging Face Transformers库中,通过更新`summarization_name_mapping`变量,将字段映射为("report", "summary"),即可直接适配`run_summarization.py`等标准训练脚本。研究人员通常采用编码器-解码器架构,如BART或PEGASUS,以报告全文作为输入,训练模型生成对应摘要。数据集的标准化分割便于进行模型训练、超参数调优及性能评估,其提供的基准有助于推动长文档摘要模型在忠实度、连贯性与信息密度等方面的技术进步。
背景与挑战
背景概述
在自然语言处理领域,长文档摘要生成一直是文本生成任务中的关键研究方向。GovReport数据集由Luyang Huang等人于2021年创建,旨在应对政府报告这类长文档的自动摘要挑战。该数据集基于美国国会研究服务报告构建,涵盖了广泛的政策主题,为研究长文档的高效注意力机制提供了重要资源。其核心研究问题聚焦于如何从结构复杂、信息密集的长文档中提取关键信息,生成简洁准确的摘要。该数据集的发布显著推动了长文档摘要模型的发展,为后续研究提供了标准化的评估基准。
当前挑战
GovReport数据集面临的挑战主要体现在两个方面:在领域问题层面,政府报告通常具有复杂的逻辑结构、专业术语密集以及信息冗余度高,这使得模型在保持摘要连贯性和信息完整性方面面临严峻考验;在构建过程中,数据收集需要处理大量非结构化文本,确保报告与摘要的对应关系准确无误,同时还需克服文档长度差异大、格式不统一等预处理难题,这些因素共同增加了数据集构建的复杂性和技术门槛。
常用场景
经典使用场景
在自然语言处理领域,长文档摘要任务因其复杂的结构和信息密度而备受关注。GovReport数据集作为政府报告摘要的专门资源,其经典使用场景聚焦于训练和评估模型对冗长政府文档进行精准概括的能力。该数据集通过提供报告原文与人工撰写的摘要对,为研究者构建了标准化的实验环境,广泛应用于序列到序列模型的性能测试,特别是针对Transformer架构在长文本处理中的有效性验证。
解决学术问题
该数据集有效解决了长文档摘要中信息压缩与保真度的平衡难题。传统摘要模型在处理超过千词的文档时,常面临注意力机制失效和关键信息遗漏的困境。GovReport通过提供真实场景下的政府报告,使研究者能够深入探索分层注意力、动态掩码等创新方法,显著提升了模型在长距离依赖建模和信息选择方面的性能,推动了文档级自然语言理解的理论发展。
衍生相关工作
该数据集的发布催生了多项里程碑式的研究成果。Huang等人提出的层次化注意力机制成为长文档摘要的基准方法,后续研究在此基础上发展了图神经网络融合、强化学习优化等创新架构。这些工作不仅持续刷新GovReport的自动评价指标,更形成了可迁移到其他长文本领域的技术范式,为整个文本生成领域提供了重要的方法论参考。
以上内容由遇见数据集搜集并总结生成



