CNN/DailyMail Dataset, NYT Dataset, DUC Dataset, Reddit Dataset, AMI Dataset, PubMed Dataset

github2021-04-09 更新2024-05-31 收录

下载链接：

https://github.com/coder352/summarization-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集用于论文Content Selection in Deep Learning Models of Summarization中的内容选择研究，包括CNN/DailyMail、NYT、DUC、Reddit、AMI和PubMed等数据集，用于支持深度学习模型在摘要生成任务中的应用。

本数据集旨在支持论文《深度学习模型在内容选择中的应用：Content Selection in Deep Learning Models of Summarization》中的研究，涉及CNN/DailyMail、NYT、DUC、Reddit、AMI及PubMed等多个数据集，旨在深化深度学习模型在摘要生成任务中的实践应用。

创建时间：

2019-10-23

原始信息汇总

数据集概述

CNN/DailyMail Dataset

预处理命令：python summarization-datasets/preprocess_cnn_dailymail.py --data-dir data/
数据存储位置：data/cnn-dailymail
特点：数据量大，预处理时间较长。

NYT Dataset

数据获取：需从LDC获取原始文档，链接：LDC2008T19
预处理命令：python summarization-datasets/preprocess_nyt.py --nyt raw_data/nyt_corpus --data-dir data
数据存储位置：data/nyt/

DUC Dataset

数据获取：需签署NIST的发布表格并获取用户名和密码。
预处理命令：python summarization-datasets/preprocess_duc_sds.py --duc2001 raw_data/DUC2001_Summarization_Documents.tgz --duc2002-documents raw_data/DUC2002_Summarization_Documents.tgz --duc2002-summaries raw_data/DUC2002_test_data.tar.gz --data-dir data
数据存储位置：data/duc-sds/

Reddit Dataset

预处理命令：python summarization-datasets/preprocess_reddit.py --data-dir data/
数据存储位置：data/reddit

AMI Dataset

预处理命令：python summarization-datasets/preprocess_ami.py --data-dir data/
数据存储位置：data/ami

PubMed Dataset

预处理命令：python summarization-datasets/preprocess_pubmed.py --data-dir data/
数据存储位置：data/pubmed

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及多个步骤，首先从原始数据源获取数据，随后通过预处理脚本进行数据清洗和格式化。例如，CNN/DailyMail数据集通过运行特定的预处理脚本生成，而NYT数据集则需要从LDC获取原始文档并进行解压和预处理。DUC数据集则更为复杂，需从NIST获取数据并运行多个脚本进行预处理。Reddit、AMI和PubMed数据集则通过各自的预处理脚本生成，最终数据存储在指定的目录中。

特点

这些数据集涵盖了新闻、社交媒体、学术文献等多个领域，具有广泛的应用场景。CNN/DailyMail和NYT数据集主要包含新闻文章及其摘要，DUC数据集则专注于短文档摘要任务。Reddit数据集来源于社交媒体平台，AMI数据集则涉及会议记录，PubMed数据集则聚焦于生物医学文献。每个数据集都经过精心处理，确保数据的质量和一致性，适合用于深度学习模型的训练和评估。

使用方法

使用这些数据集时，首先需安装所需的Python环境及相关依赖库，如spacy。随后，通过运行相应的预处理脚本，将原始数据转换为模型可用的格式。例如，CNN/DailyMail数据集的预处理脚本会生成一个包含文章和摘要的目录。对于NYT和DUC数据集，用户需先获取原始数据并解压，再运行预处理脚本。Reddit、AMI和PubMed数据集则直接通过预处理脚本生成数据。最终，预处理后的数据可用于训练和评估摘要生成模型。

背景与挑战

背景概述

DailyMail Dataset、NYT Dataset、DUC Dataset、Reddit Dataset、AMI Dataset和PubMed Dataset是自然语言处理领域中用于文本摘要任务的重要数据集。这些数据集由多个研究机构在不同时间创建，旨在解决自动文本摘要中的内容选择问题。CNN/DailyMail Dataset和NYT Dataset分别基于新闻文章，DUC Dataset由美国国家标准与技术研究院（NIST）提供，Reddit Dataset则来源于社交媒体平台，AMI Dataset专注于会议记录，而PubMed Dataset则基于医学文献。这些数据集在推动深度学习模型在文本摘要任务中的应用方面发挥了重要作用，尤其是在内容选择和摘要生成的研究中具有广泛的影响力。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，数据集的规模庞大，预处理过程耗时且计算资源需求高，例如CNN/DailyMail Dataset的预处理需要大量时间和存储空间。其次，部分数据集（如NYT Dataset和DUC Dataset）的原始数据获取流程复杂，涉及法律协议和数据访问权限的限制，增加了数据获取的难度。此外，数据集的多样性和领域特异性（如AMI Dataset的会议记录和PubMed Dataset的医学文献）要求模型具备跨领域的泛化能力，这对模型的训练和评估提出了更高的要求。最后，数据标注的质量和一致性也是影响模型性能的关键因素，尤其是在多源数据整合时，如何确保数据的一致性和可靠性是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，DailyMail、NYT、DUC、Reddit、AMI和PubMed数据集被广泛用于文本摘要任务的研究。这些数据集提供了丰富的新闻文章、社交媒体帖子和学术论文，为深度学习模型提供了多样化的训练和测试材料。通过预处理脚本，研究者可以轻松地将这些数据集转换为适合模型输入的格式，从而加速模型的开发和验证过程。

衍生相关工作

基于这些数据集，研究者们开发了多种经典的文本摘要模型，如基于注意力机制的Seq2Seq模型、Transformer模型以及BERT等预训练语言模型。这些模型在各类文本摘要任务中取得了显著的性能提升，并衍生出许多改进版本和变体。此外，这些数据集还催生了大量关于摘要质量评估、多文档摘要和跨语言摘要的研究工作，进一步丰富了自然语言处理领域的研究内容。

数据集最近研究