WCEP Dataset

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/complementizer/wcep-mds-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

WCEP数据集是一个用于多文档摘要（MDS）的数据集，包含关于新闻事件的人工编写简短摘要，每个摘要都与一个事件相关联的新闻文章簇配对。这些文章来源于Wikipedia当前事件门户（WCEP）编辑引用的来源，并扩展了从Common Crawl新闻数据集自动获取的文章。

The WCEP dataset is a collection designed for multi-document summarization (MDS), featuring human-curated brief summaries of news events. Each summary is paired with a cluster of news articles related to the event. The articles are sourced from references cited by editors on the Wikipedia Current Events Portal (WCEP) and are supplemented with articles automatically gathered from the Common Crawl news dataset.

创建时间：

2020-05-01

原始信息汇总

WCEP Dataset 概述

数据集内容

类型: 多文档摘要（MDS）数据集
来源: 数据集包含关于新闻事件的人工编写摘要，这些摘要来自Wikipedia Current Events Portal，每个摘要都与一组相关新闻文章配对。
扩展: 除了WCEP引用的新闻来源外，还通过Common Crawl News dataset自动获取文章进行扩展。

数据集格式

存储格式: 数据集以gzipped jsonl格式存储，每行对应一个新闻事件，包括摘要、新闻文章集群及一些元数据（如日期和类别）。
任务: 任务是从新闻文章中生成摘要。

数据集下载

下载链接: 提取版本的数据集下载链接

数据集加载

加载方法: 使用Python代码加载gzipped jsonl格式的数据集。

评估与基准

评估工具: 使用newsroom库的ROUGE包装器进行评估。
基准方法: 提供多种抽取式基准方法，如TextRankSummarizer。

数据集生成

生成过程: 数据集生成包括从WCEP和Common Crawl提取文章，以及组合和分割数据集的步骤。

引用信息

引用格式:

@inproceedings{gholipour-ghalandari-etal-2020-large, title = "A Large-Scale Multi-Document Summarization Dataset from the {W}ikipedia Current Events Portal", author = "Gholipour Ghalandari, Demian and Hokamp, Chris and Pham, Nghia The and Glover, John and Ifrim, Georgiana", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.120", pages = "1302--1308", }

搜集汇总

数据集介绍

构建方式

WCEP数据集的构建过程融合了人工与自动化技术，旨在为多文档摘要任务提供高质量的数据支持。首先，数据集从Wikipedia Current Events Portal（WCEP）中获取了关于新闻事件的人工编写摘要，并将其与相关的新闻文章集群配对。这些文章不仅包括WCEP编辑引用的来源，还通过Common Crawl News数据集自动扩展了更多文章。通过结合人工摘要与自动化获取的文章，数据集确保了内容的多样性与覆盖面，为多文档摘要任务提供了丰富的训练与评估资源。

特点

WCEP数据集的核心特点在于其多源数据的整合与高质量的摘要内容。数据集不仅包含了人工编写的摘要，还通过自动化手段扩展了相关的新闻文章，确保了数据的多样性与广泛性。此外，数据集采用gzipped jsonl格式存储，便于高效读取与处理。每个新闻事件对应一个摘要和一组新闻文章，附带日期与类别等元数据，为研究者提供了丰富的上下文信息。

使用方法

WCEP数据集的使用方法灵活多样，适用于多种多文档摘要任务的研究与实践。用户可以通过提供的Colab Notebook快速下载并检查数据集，运行提取式基线模型或评估生成的摘要。数据集的加载通过Python脚本实现，支持高效读取与处理。此外，数据集还提供了提取式基线模型与评估代码，用户可以通过简单的配置运行这些模型并计算ROUGE分数，从而评估摘要生成的质量。

背景与挑战

背景概述

WCEP数据集，全称为Wikipedia Current Events Portal数据集，是一个专门为多文档摘要（MDS）任务设计的大型数据集。该数据集由Demian Gholipour Ghalandari等人于2020年创建，主要研究人员来自多个机构，包括都柏林城市大学和爱尔兰国立大学。WCEP数据集的核心研究问题是如何从多个新闻文章中生成准确且简洁的摘要，这对于新闻事件的快速理解和信息传播具有重要意义。该数据集的构建基于Wikipedia Current Events Portal上的新闻事件摘要，并结合了Common Crawl News数据集中的相关文章，从而提供了丰富的多文档摘要资源。WCEP数据集的发布对自然语言处理领域，特别是多文档摘要任务的研究产生了深远影响，为研究人员提供了高质量的基准数据集。

当前挑战

WCEP数据集在构建过程中面临了多项挑战。首先，从Wikipedia Current Events Portal和Common Crawl News数据集中提取相关新闻文章的过程复杂且耗时，尤其是在处理大量数据时，如何确保数据的准确性和完整性是一个重要挑战。其次，多文档摘要任务本身具有较高的难度，要求模型能够从多个来源的文章中提取关键信息并生成连贯的摘要。此外，数据集的评估也是一个挑战，研究人员需要设计有效的评估方法，如使用ROUGE分数来衡量生成的摘要与人工摘要的相似度。最后，数据集的扩展性和可重复性也是需要考虑的问题，如何在保证数据质量的同时提高数据处理的效率，是未来研究的重点。

常用场景

经典使用场景

WCEP数据集在多文档摘要（MDS）领域中具有经典的使用场景，主要用于生成新闻事件的简短摘要。该数据集通过将人工编写的新闻摘要与相关的新闻文章集群配对，为研究人员提供了一个标准化的测试平台。通过使用该数据集，研究者可以训练和评估自动摘要生成模型，特别是在处理多文档输入时，如何有效地提取关键信息并生成简洁、准确的摘要。

衍生相关工作

基于WCEP数据集，研究者们开发了多种多文档摘要模型，并在多个国际会议上发表了相关研究成果。例如，ACL 2020论文中提出的模型利用该数据集进行了广泛的实验，展示了其在多文档摘要任务中的优越性能。此外，WCEP数据集还激发了其他研究者对新闻摘要生成任务的兴趣，推动了相关领域的技术进步和创新。

数据集最近研究