five

AQUAMUSE

收藏
arXiv2020-10-24 更新2024-06-21 收录
下载链接:
https://github.com/google-research-datasets/aquamuse
下载链接
链接失效反馈
官方服务:
资源简介:
AQUAMUSE是由谷歌研究院开发的一个自动生成数据集,用于查询驱动的多文档摘要任务。该数据集包含5519个查询驱动的摘要,每个摘要平均关联6个从Common Crawl的3.55亿文档中选出的输入文档。数据集的创建过程涉及从问题回答数据集和大型文档语料库中自动挖掘qMDS示例,特别之处在于能同时生成抽取式和生成式摘要的双重数据集。AQUAMUSE数据集的应用领域主要集中在增强信息检索体验,解决用户在查询时获取相关、简洁信息的需求。

AQUAMUSE is an automatically generated dataset developed by Google Research for query-driven multi-document summarization tasks. This dataset contains 5,519 query-driven summaries, each of which is on average associated with 6 input documents selected from 355 million documents in Common Crawl. The dataset creation process involves automatically mining qMDS examples from question answering datasets and large document corpora. A key unique feature of AQUAMUSE is that it is a dual dataset capable of generating both extractive and abstractive summaries. The application areas of the AQUAMUSE dataset mainly focus on enhancing information retrieval experiences, addressing users' need to obtain relevant and concise information when conducting queries.
提供机构:
谷歌研究院
创建时间:
2020-10-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作