Multi-News

Name: Multi-News
Creator: 耶鲁大学计算机科学系
Published: 2019-06-20 04:26:03
License: 暂无描述

arXiv2019-06-20 更新2024-06-21 收录

下载链接：

https://github.com/Alex-Fabbri/Multi-News

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-News是由耶鲁大学计算机科学系创建的第一个大规模多文档新闻摘要数据集，包含56,216个文章-摘要对。该数据集从newser.com收集新闻文章和专业编辑编写的人工摘要，旨在解决多文档新闻事件的全面和非冗余摘要挑战。数据集内容丰富，涵盖超过1,500个新闻来源，适用于训练和测试多文档摘要模型，特别是在处理不同焦点和观点的新闻事件时。

Multi-News is the first large-scale multi-document news summarization dataset created by the Department of Computer Science at Yale University. It contains 56,216 article-summary pairs. This dataset collects news articles and human-written summaries produced by professional editors from newser.com, aiming to address the challenge of generating comprehensive and non-redundant summaries for multi-document news events. The dataset has rich content, covering over 1,500 news sources, and is suitable for training and testing multi-document summarization models, especially when dealing with news events with different focuses and perspectives.

提供机构：

耶鲁大学计算机科学系

创建时间：

2019-06-05

搜集汇总

数据集介绍

构建方式

Multi-News数据集的构建，旨在应对多文档新闻摘要生成领域的数据稀缺问题。该数据集由来自newser.com网站的新闻文章及其人类撰写的摘要组成，涵盖了56,216个文章摘要对。每个摘要均由专业编辑撰写，并附有指向原始文章的链接。数据集的构建过程包括从网站上抓取文章和摘要，并对其进行预处理，如分词、去除噪声等。数据集被分为训练集、验证集和测试集，比例为80%、10%和10%，以支持模型训练和评估。

特点

Multi-News数据集的特点主要体现在其规模之大和来源的多样性。作为首个大规模多文档新闻摘要数据集，它包含的文章摘要对数量是之前类似数据集的两倍。此外，数据集来源于超过1,500个新闻网站，这为摘要生成模型提供了丰富的训练数据。在摘要的抽象性方面，Multi-News的摘要与其他数据集相比，具有相似的抽象程度，这有助于模型学习生成既简洁又信息丰富的摘要。此外，数据集还提供了丰富的统计分析和多样性指标，如摘要中独特n-gram的百分比、摘要的提取片段覆盖率、密度和压缩率等。

使用方法

Multi-News数据集的使用方法主要涉及摘要生成模型的训练和评估。首先，研究者可以从数据集中选择适当的训练集、验证集和测试集。然后，可以使用如指针生成网络、Transformer等模型进行训练，并通过ROUGE指标评估模型的摘要质量。此外，数据集还支持人类评估，如最佳最差缩放法，以评估模型生成摘要的信息量、流畅性和非冗余性。通过使用Multi-News数据集，研究者可以探索多文档摘要生成模型的更多可能性，并促进该领域的发展。

背景与挑战

背景概述

自然语言处理领域中的摘要生成问题随着在线出版物的快速增长而日益重要。虽然单文档摘要系统(SDS)已经从大型数据集中受益于神经编码器-解码器模型的发展，但是多文档摘要(MDS)的研究却局限于几百个样本的数据集。为了填补这一空白，Yale大学的计算机科学系研究人员Alexander R. Fabbri等人于2019年6月发表了论文，介绍了名为Multi-News的MDS新闻数据集。该数据集包含了56,216篇文章-摘要对，为多文档新闻摘要的研究提供了宝贵资源。研究团队还提出了一种端到端模型，该模型结合了传统的提取式摘要模型和标准的SDS模型，并在MDS数据集上取得了具有竞争力的结果。

当前挑战

多文档新闻摘要面临着输出全面而避免冗余的挑战。输入文档可能在事件的重点和观点上有所不同。Multi-News数据集通过提供由专业编辑撰写的人类摘要，旨在捕捉不同来源文档中的关键信息，同时减少重复内容。此外，构建大规模多文档摘要数据集的挑战在于数据稀疏性和人工摘要的成本。为了解决这个问题，研究团队引入了Multi-News数据集，并提出了一个层次化的模型，该模型结合了指针生成网络和额外的最大边际相关性(MMR)模块，以计算句子排名分数。该模型在Multi-News数据集和DUC 2004数据集上表现出了竞争力。然而，该领域仍面临许多挑战，包括如何更好地处理不同文档之间的关系，如何提高摘要的流畅性和信息量，以及如何减少摘要中的冗余。

常用场景

经典使用场景

Multi-News数据集在多文档摘要领域具有重要应用价值。它首次提供了一个大规模的多文档新闻摘要数据集，有助于推动该领域的研究进展。该数据集包含了56,216篇文章摘要对，为训练和测试多文档摘要模型提供了丰富的数据资源。

实际应用

Multi-News数据集的实际应用场景主要包括新闻摘要生成、信息提取、知识图谱构建等。例如，利用Multi-News数据集训练的多文档摘要模型可以自动生成新闻摘要，帮助用户快速了解新闻事件的全貌；同时，该模型还可以用于信息提取，从大量的新闻文章中提取出关键信息，为用户提供更加精准的新闻服务。

衍生相关工作

Multi-News数据集的提出，为多文档摘要领域的研究提供了新的思路和方法。基于该数据集，研究人员可以进一步探索多文档摘要模型的优化和改进，提高模型的准确性和效率。同时，该数据集还可以用于其他相关领域的研究，如文本分类、情感分析等。

以上内容由遇见数据集搜集并总结生成