Query-based Multi-Document Summarization Dataset

github2023-09-07 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/aquamuse

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于基于查询的多文档摘要，包括抽象和提取两种类型的摘要。数据集依赖于Google Natural Questions的查询和Common Crawl的文档，通过自动挖掘生成。

This dataset is designed for query-based multi-document summarization, encompassing both abstractive and extractive types of summaries. It leverages queries from Google Natural Questions and documents from Common Crawl, generated through automated mining processes.

创建时间：

2020-10-20

原始信息汇总

数据集概述

数据集名称

Dataset for Query-based Multi-Document Summarization

数据集描述

本数据集用于基于查询的多文档摘要生成，包含抽象式和提取式两种类型的数据集，详细描述见AQuaMuSe论文。

数据集结构

目录结构

每个数据集版本包含两个顶级文件夹：abstractive 和 extractive。
每个顶级文件夹下包含三个子文件夹：train, dev, 和 test。

文件格式

使用TFrecords格式。

数据字段

query: 用于摘要生成的输入查询，来自Natural Questions用户查询。
input_urls: 指向Common Crawl的输入文档URL列表，每个URL通过特殊标记分隔符<EOD>分隔。
target: 摘要目标，来自Natural Questions的长答案。

数据集依赖

文档URL参考Common Crawl June 2017 Archive。

搜集汇总

数据集介绍

构建方式

该数据集基于AQuaMuSe论文中的方法构建，旨在支持基于查询的多文档摘要任务。数据来源主要包括Common Crawl 2017年6月的存档和Natural Questions的用户查询。数据集分为抽象摘要和抽取摘要两个主要类别，每个类别下进一步划分为训练集、开发集和测试集。数据以TFRecord格式存储，包含查询、输入文档URL列表以及摘要目标等字段。

特点

该数据集的特点在于其多文档摘要任务的查询驱动性质，能够有效模拟真实场景中的信息检索与摘要生成需求。数据集中的查询来源于Natural Questions的用户查询，确保了查询的多样性和实用性。输入文档通过Common Crawl获取，涵盖了广泛的网络资源。此外，数据集提供了抽象和抽取两种摘要形式，为研究者提供了灵活的实验选择。

使用方法

使用该数据集时，研究者可通过加载TFRecord格式的数据文件，提取查询、输入文档URL列表及摘要目标字段。数据集的结构清晰，便于直接用于训练和评估多文档摘要模型。开发者可根据需求选择抽象或抽取摘要任务，并通过提供的训练集、开发集和测试集进行模型训练、调优和性能评估。

背景与挑战

背景概述

Query-based Multi-Document Summarization Dataset 是一个专注于基于查询的多文档摘要任务的数据集，旨在推动自然语言处理领域中的自动摘要技术发展。该数据集由研究人员在2020年提出，主要基于AQuaMuSe论文中的方法构建，结合了Common Crawl 2017年6月存档和Google Natural Questions数据集中的用户查询与长答案。其核心研究问题在于如何从多篇相关文档中生成与特定查询相关的摘要，既包括抽取式摘要，也包括生成式摘要。该数据集的发布为多文档摘要任务提供了重要的基准，推动了相关领域的研究进展，特别是在信息检索和自然语言生成领域产生了深远影响。

当前挑战

该数据集面临的主要挑战包括两个方面：首先，在领域问题层面，基于查询的多文档摘要任务要求模型不仅能够理解查询的语义，还需从多篇文档中提取相关信息并生成连贯的摘要，这对模型的上下文理解能力和信息整合能力提出了极高要求。其次，在数据集构建过程中，研究人员需要处理来自Common Crawl的海量网页数据，并从中筛选出与Natural Questions查询相关的文档，这一过程涉及复杂的文档对齐和质量控制。此外，数据格式的统一化（如TFrecords的使用）以及数据分割（训练集、验证集和测试集）的合理性也是构建过程中的重要挑战。这些挑战共同构成了该数据集在研究和应用中的核心难点。

常用场景

经典使用场景

Query-based Multi-Document Summarization Dataset 主要用于基于查询的多文档摘要任务，旨在通过用户查询来生成相关文档的摘要。该数据集广泛应用于自然语言处理领域，特别是在自动摘要生成和问答系统中。研究人员可以利用该数据集训练和评估模型，以生成与查询相关的、信息丰富的摘要。

衍生相关工作

基于该数据集，许多经典的研究工作得以展开。例如，AQuaMuSe 论文提出了一种基于查询的多文档摘要方法，利用该数据集进行模型训练和评估。此外，该数据集还启发了其他研究，如基于深度学习的多文档摘要模型和跨语言摘要生成技术，进一步推动了自然语言处理领域的发展。

数据集最近研究