google-research-datasets/aquamuse

Name: google-research-datasets/aquamuse
Creator: google-research-datasets
Published: 2024-01-09 12:36:37
License: 暂无描述

Hugging Face2024-01-09 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/aquamuse

下载链接

链接失效反馈

官方服务：

资源简介：

AQuaMuSe是一个新颖的可扩展方法，用于自动挖掘基于双查询的多文档摘要数据集，支持抽取式和抽象式摘要。该数据集使用问题回答数据集（Google Natural Questions）和大型文档语料库（Common Crawl）生成。数据集包含抽象和抽取两种类型的查询式多文档摘要版本，如[AQuaMuSe论文](https://arxiv.org/pdf/2010.12694.pdf)所述。

AQuaMuSe is a novel scalable approach for automatically mining dual-query-based multi-document summarization datasets, supporting both extractive and abstractive summarization. This dataset is constructed using the question answering dataset Google Natural Questions and the large-scale document corpus Common Crawl. It includes two variants of query-focused multi-document summarization: abstractive and extractive, as described in the [AQuaMuSe paper](https://arxiv.org/pdf/2010.12694.pdf).

提供机构：

google-research-datasets

原始信息汇总

数据集概述

数据集描述

数据集摘要

AQuaMuSe 是一个自动挖掘双查询多文档摘要数据集的新方法，使用问题回答数据集（Google Natural Questions）和大型文档语料库（Common Crawl）生成抽取式和抽象式摘要。

支持的任务和排行榜

抽象式和抽取式查询多文档摘要
问答

语言

en : 英语

数据集结构

数据实例

input_urls: 一个字符串列表，指向要摘要的输入文档的URL。
query: 一个字符串，用作摘要上下文的输入查询。
target: 一个字符串，摘要目标。

数据字段

input_urls: 一个字符串列表，指向要摘要的输入文档的URL。
query: 一个字符串，用作摘要上下文的输入查询。
target: 一个字符串，摘要目标。

数据分割

数据集有两个高层次配置：abstractive 和 extractive。
每个配置包含 train、dev 和 test 数据分割。

数据集创建

策划理由

数据集是根据 AQuaMuSe 论文自动生成的抽象式和抽取式查询多文档摘要数据集。

源数据

初始数据收集和规范化：[更多信息需补充]
源语言生产者：[更多信息需补充]

注释

注释过程：[更多信息需补充]
注释者：[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

Sayali Kulkarni, Sheide Chammas, Wan Zhu, Fei Sha, 和 Eugene Ie。

许可信息

[更多信息需补充]

引用信息

@misc{kulkarni2020aquamuse, title={AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization}, author={Sayali Kulkarni and Sheide Chammas and Wan Zhu and Fei Sha and Eugene Ie}, year={2020}, eprint={2010.12694}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @Karthik-Bhaskar 添加此数据集。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的多文档摘要数据集面临诸多挑战。AQuaMuSe数据集采用了一种创新的自动化挖掘方法，巧妙地将谷歌自然问题数据集中的用户查询与Common Crawl大规模文档语料库相结合。通过系统化的算法流程，该数据集自动生成了面向查询的多文档摘要对，涵盖了抽取式和生成式两种摘要类型。这种构建方式不仅显著提升了数据采集的效率，还确保了摘要内容与查询意图的高度相关性，为相关研究提供了宝贵的资源基础。

使用方法

在具体应用场景中，研究人员可依据任务目标灵活调用该数据集。对于抽象摘要任务，可直接使用‘abstractive’配置下的数据，将查询与对应文档作为输入，训练模型生成连贯的文本摘要。若开展抽取摘要研究，则选用‘extractive’配置，模型需要从源文档中识别并组合关键句子。数据集以标准化的JSON格式提供，每个实例包含明确的字段映射，便于直接加载至主流深度学习框架进行预处理与模型训练，有效支撑相关算法的开发与性能评测。

背景与挑战

背景概述

在自然语言处理领域，查询式多文档摘要任务旨在根据特定查询，从多个相关文档中提炼出精炼的摘要。谷歌研究团队于2020年推出了AQuaMuSe数据集，由Sayali Kulkarni等研究人员主导开发。该数据集创新性地结合了自然问题数据集与通用爬虫文档语料，通过自动化方法构建，旨在为抽象式与抽取式查询多文档摘要提供大规模、高质量的基准数据。其核心研究问题聚焦于如何高效生成与查询高度相关的多文档摘要，从而推动摘要生成模型在真实场景中的应用与发展，对信息检索与文本生成领域产生了显著影响。

当前挑战

AQuaMuSe数据集面临的挑战主要体现在两个方面。在领域问题层面，查询式多文档摘要需处理文档间的冗余与矛盾信息，同时确保摘要内容与查询意图精准对齐，这对模型的语义理解与信息融合能力提出了较高要求。在构建过程中，自动化生成方法虽提升了数据规模，但依赖于自然问题数据集的答案质量与通用爬虫文档的覆盖度，可能引入噪声或偏差，且摘要的流畅性与一致性仍需进一步优化以接近人工标注水准。

常用场景

经典使用场景

在自然语言处理领域，查询式多文档摘要任务旨在根据特定查询从多个相关文档中生成精炼的摘要。AQuaMuSe数据集通过自动挖掘机制，将Google自然问题数据集中的用户查询与Common Crawl大规模文档语料库关联，为这一任务提供了丰富的训练与评估资源。其经典使用场景集中于训练和验证抽象式与抽取式多文档摘要模型，使模型能够依据查询上下文，从多篇文档中筛选并融合关键信息，生成连贯且相关的摘要文本。

解决学术问题

该数据集有效应对了多文档摘要研究中数据稀缺与构建成本高昂的挑战。通过自动化流程从现有问答数据与网络文档中衍生摘要样本，AQuaMuSe为学术界提供了大规模、高质量的监督数据，支撑了查询导向的摘要生成方法的探索与优化。其意义在于推动了摘要系统在真实场景中的适用性研究，促进了模型对复杂信息检索与内容合成能力的提升，对自动摘要技术的发展产生了深远影响。

实际应用

在实际应用中，AQuaMuSe数据集能够赋能智能助手与搜索引擎，提升其信息整合与呈现效率。例如，在回答用户复杂问题时，系统可借助该数据集训练的模型，快速从多篇网络文章中提取核心内容，并生成针对查询的简明摘要。这种能力在知识检索、新闻聚合、学术文献综述等场景中具有重要价值，有助于用户高效获取精准信息，减轻信息过载的负担。

数据集最近研究