launch/gov_report|政府研究数据集|公共政策数据集

hugging_face2022-11-09 更新2024-03-04 收录

政府研究

公共政策

下载链接：

https://hf-mirror.com/datasets/launch/gov_report

下载链接

链接失效反馈

资源简介：

GovReport数据集由美国政府研究机构（如国会研究服务局和美国政府问责办公室）编写的报告及其摘要组成。与其他长文档摘要数据集相比，该数据集的摘要和文档更长，需要更多的上下文阅读来覆盖需要总结的关键词。数据集包含三个配置：plain_text（默认）、plain_text_with_recommendations和structure，分别对应不同的数据格式。数据集的语言为英语，大小为10K到100K之间，许可证为CC BY 4.0。

提供机构：

launch

原始信息汇总

数据集概述

数据集名称

GovReport

数据集摘要

内容来源：政府报告数据集包含由政府研究机构（如国会研究服务部和美国政府问责局）编写的报告及其相关摘要。
特点：与其他长文档摘要数据集相比，政府报告数据集具有更长的摘要和文档，需要更多的上下文阅读来涵盖要摘要的关键词。

版本信息

版本：1.0.1（默认），去除多余的空格；1.0.0，原始论文中使用的数据集。

支持的任务

任务：摘要生成

语言

语言：英语

数据集结构

配置：
- plain_text（默认）：原始论文中使用的文本到文本摘要设置。
- plain_text_with_recommendations：包含“GAO建议”的文本到文本摘要设置。
- structure：包含部分结构的数据。

数据实例

示例结构：
- plain_text & plain_text_with_recommendations：包含id, document, summary字段。
- structure：包含id, document_sections（包含title, paragraphs, depth）, summary_sections（包含title, paragraphs）字段。

数据字段

plain_text & plain_text_with_recommendations：
- id: 字符串类型。
- document: 字符串类型。
- summary: 字符串类型。
structure：
- id: 字符串类型。
- document_sections: 字典类型，包含title, paragraphs, depth列表。
- summary_sections: 字典类型，包含title, paragraphs列表。

数据分割

训练集：17519
验证集：974
测试集：973

许可证

许可证：CC BY 4.0

引用信息

@inproceedings{huang-etal-2021-efficient, title = "Efficient Attentions for Long Document Summarization", author = "Huang, Luyang and Cao, Shuyang and Parulian, Nikolaus and Ji, Heng and Wang, Lu", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.112", doi = "10.18653/v1/2021.naacl-main.112", pages = "1419--1436", abstract = "The quadratic computational and memory complexities of large Transformers have limited their scalability for long document summarization. In this paper, we propose Hepos, a novel efficient encoder-decoder attention with head-wise positional strides to effectively pinpoint salient information from the source. We further conduct a systematic study of existing efficient self-attentions. Combined with Hepos, we are able to process ten times more tokens than existing models that use full attentions. For evaluation, we present a new dataset, GovReport, with significantly longer documents and summaries. Results show that our models produce significantly higher ROUGE scores than competitive comparisons, including new state-of-the-art results on PubMed. Human evaluation also shows that our models generate more informative summaries with fewer unfaithful errors.", }

AI搜集汇总

数据集介绍

构建方式

GovReport数据集的构建基于政府研究机构发布的报告，包括国会研究服务部和美国政府问责局的报告。这些报告由专业编辑生成，确保了数据的高质量和权威性。数据集的构建旨在提供一个用于长文档摘要任务的资源，特别是针对那些需要更多上下文来覆盖关键信息的文档。通过收集和整理这些报告及其摘要，数据集为研究者提供了一个丰富的语料库，用于训练和评估长文档摘要模型。

特点

GovReport数据集的主要特点在于其文档和摘要的长度显著超过其他长文档摘要数据集，这使得模型需要处理更多的上下文信息。此外，数据集提供了三种不同的配置，包括纯文本、带有建议的纯文本以及结构化数据，以满足不同研究需求。数据集的结构化配置还包含了文档和摘要的章节信息，进一步增强了其应用的灵活性和深度。

使用方法

使用GovReport数据集时，研究者可以通过设置`load_dataset`函数的`revision`和`name`参数来选择不同的版本和配置。数据集支持的任务主要是长文档摘要，研究者可以利用训练、验证和测试集来训练和评估模型。数据集的结构化配置特别适合需要处理复杂文档结构的应用，如法律文档分析或政策报告摘要生成。

背景与挑战

背景概述

政府报告数据集（GovReport）由政府研究机构如国会研究服务部和美国政府问责办公室撰写，旨在为长文档摘要任务提供丰富的资源。该数据集的核心研究问题聚焦于如何高效地从长篇文档中提取关键信息并生成摘要。其创建时间为2021年，主要研究人员包括黄鲁阳、曹书阳、Parulian Nikolaus、Ji Heng和Wang Lu，他们在NAACL 2021会议上发表了相关研究成果。GovReport数据集的推出对长文档摘要领域产生了深远影响，尤其是在处理长篇文档和生成高质量摘要方面，为研究者提供了新的挑战和机遇。

当前挑战

GovReport数据集面临的挑战主要集中在两个方面。首先，长文档摘要任务本身具有较高的复杂性，要求模型能够处理大量的上下文信息，并从中提取出关键内容。其次，数据集的构建过程中，如何确保摘要的准确性和完整性是一个重要挑战。此外，由于数据来源于政府机构，确保数据的权威性和无偏性也是一大难点。这些挑战不仅推动了长文档摘要技术的发展，也为相关领域的研究提供了新的视角和方法。

常用场景

经典使用场景

在自然语言处理领域，launch/gov_report数据集的经典使用场景主要集中在长文档摘要任务上。该数据集包含了由美国国会研究服务部和美国政府问责办公室撰写的政府报告及其摘要，这些文档和摘要通常具有较长的篇幅，要求模型能够处理大量的上下文信息以生成准确的摘要。通过使用该数据集，研究者可以训练和评估模型在处理复杂、冗长的文本时的表现，尤其是在需要高度概括和提炼关键信息的场景中。

实际应用

在实际应用中，launch/gov_report数据集的应用场景广泛，包括但不限于政府报告的自动摘要生成、政策分析和决策支持系统。通过自动生成政府报告的摘要，可以大幅提高政策分析人员的工作效率，帮助他们快速获取关键信息。此外，该数据集还可用于法律文书、医学文献等领域的自动摘要生成，为相关行业提供技术支持，提升信息处理的自动化水平。

衍生相关工作

launch/gov_report数据集的发布催生了一系列相关的经典工作，特别是在长文档摘要和高效注意力机制的研究方面。例如，Huang等人提出的Hepos模型，通过引入头位步长机制，显著提高了模型处理长文档的能力。此外，该数据集还促进了其他高效注意力机制的研究，如局部注意力、稀疏注意力等，推动了长文档处理技术的整体进步。这些工作不仅在学术界产生了广泛影响，也为实际应用提供了技术基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据，涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标（如pH值、溶解氧、总硬度等）以及环境因素（如气温、降水量等）。

www.ngac.org.cn 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。