CNN/DailyMail Dataset, NYT Dataset, DUC Dataset, Reddit Dataset, AMI Dataset, PubMed Dataset

github2024-03-03 更新2024-05-31 收录

下载链接：

https://github.com/kedz/summarization-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集用于论文Content Selection in Deep Learning Models of Summarization中的深度学习模型摘要内容选择研究。每个数据集都有详细的预处理和下载指导，包括CNN/DailyMail、NYT、DUC、Reddit、AMI和PubMed数据集。

本数据集旨在支持论文《深度学习模型摘要内容选择》的研究，旨在探究深度学习技术在摘要内容选择领域的应用。各数据集均附有详尽的预处理步骤与下载指南，涵盖CNN/DailyMail、NYT、DUC、Reddit、AMI及PubMed等多个知名数据集。

创建时间：

2018-07-19

原始信息汇总

数据集概述

CNN/DailyMail Dataset

预处理命令：python summarization-datasets/preprocess_cnn_dailymail.py --data-dir data/
数据存储位置：data/cnn-dailymail
特点：数据集较大，预处理时间较长。

NYT Dataset

数据获取：需从LDC获取原始文档，链接为https://catalog.ldc.upenn.edu/LDC2008T19
预处理命令：python summarization-datasets/preprocess_nyt.py --nyt raw_data/nyt_corpus --data-dir data
数据存储位置：data/nyt/

DUC Dataset

数据获取：需签署NIST的发布表格并获取用户名和密码。
预处理命令：python summarization-datasets/preprocess_duc_sds.py --duc2001 raw_data/DUC2001_Summarization_Documents.tgz --duc2002-documents raw_data/DUC2002_Summarization_Documents.tgz --duc2002-summaries raw_data/DUC2002_test_data.tar.gz --data-dir data
数据存储位置：data/duc-sds/

Reddit Dataset

预处理命令：python summarization-datasets/preprocess_reddit.py --data-dir data/
数据存储位置：data/reddit

AMI Dataset

预处理命令：python summarization-datasets/preprocess_ami.py --data-dir data/
数据存储位置：data/ami

PubMed Dataset

预处理命令：python summarization-datasets/preprocess_pubmed.py --data-dir data/
数据存储位置：data/pubmed

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及多个步骤，包括数据下载、预处理和格式化。对于CNN/DailyMail数据集，用户需运行特定的预处理脚本，将原始数据转换为适用于深度学习模型的格式。NYT数据集则需要从LDC获取原始文档，并通过解压和预处理脚本生成最终数据。DUC数据集的处理更为复杂，用户需先与NIST签署协议并获取数据文件，随后通过脚本进行解压和预处理。Reddit、AMI和PubMed数据集则通过相应的预处理脚本直接生成所需数据。

特点

该数据集涵盖了多个领域的文本数据，包括新闻、社交媒体和学术文献。CNN/DailyMail和NYT数据集提供了丰富的新闻文本，DUC数据集则专注于摘要生成任务。Reddit数据集捕捉了社交媒体上的多样化讨论，AMI数据集则包含了会议记录，而PubMed数据集则聚焦于生物医学领域的学术文献。这些数据集不仅规模庞大，而且具有高度的多样性和专业性，适用于多种自然语言处理任务。

使用方法

使用该数据集时，用户需确保Python环境为3.6或更高版本，并安装必要的依赖库。对于每个数据集，用户需运行相应的预处理脚本，指定数据目录以生成格式化后的数据。例如，CNN/DailyMail数据集的预处理脚本为`preprocess_cnn_dailymail.py`，用户需指定`--data-dir`参数以确定数据存储位置。其他数据集的使用方法类似，用户需根据具体需求调整脚本参数。预处理完成后，生成的数据可直接用于深度学习模型的训练和评估。

背景与挑战

背景概述

DailyMail Dataset、NYT Dataset、DUC Dataset、Reddit Dataset、AMI Dataset和PubMed Dataset是自然语言处理领域中用于文本摘要任务的重要数据集。这些数据集由多个研究机构和组织创建，旨在推动深度学习模型在自动摘要生成中的应用。CNN/DailyMail Dataset和NYT Dataset分别基于新闻文章，DUC Dataset由美国国家标准与技术研究院（NIST）提供，Reddit Dataset则来源于社交媒体平台，AMI Dataset专注于会议记录，而PubMed Dataset则基于医学文献。这些数据集在文本摘要领域的研究中发挥了重要作用，为模型训练和评估提供了丰富的语料资源。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，数据预处理复杂度高，尤其是NYT Dataset和DUC Dataset需要从原始数据中提取并转换格式，涉及大量手动操作和特定权限获取。其次，数据规模庞大，如CNN/DailyMail Dataset和PubMed Dataset，其预处理过程耗时较长，对计算资源要求较高。此外，数据来源的多样性导致文本风格和质量差异显著，例如Reddit Dataset的非正式语言与PubMed Dataset的专业术语形成鲜明对比，这对模型的泛化能力提出了更高要求。最后，如何确保摘要的准确性和连贯性，尤其是在多领域文本中，仍然是一个亟待解决的核心问题。

常用场景

经典使用场景

在自然语言处理领域，DailyMail Dataset、NYT Dataset、DUC Dataset、Reddit Dataset、AMI Dataset和PubMed Dataset等数据集被广泛应用于文本摘要任务的研究。这些数据集涵盖了新闻文章、社交媒体帖子、学术论文等多种文本类型，为深度学习模型提供了丰富的训练和测试素材。研究人员通过这些数据集，能够深入探讨不同文本类型下的摘要生成策略，优化模型的性能。

实际应用

在实际应用中，这些数据集被广泛用于新闻摘要、社交媒体内容提炼、学术论文摘要生成等场景。例如，新闻机构可以利用这些数据集训练模型，自动生成新闻摘要，提高信息传播效率；社交媒体平台可以通过这些数据集，提炼用户生成内容的关键信息，帮助用户快速获取有价值的信息；学术研究者则可以利用这些数据集，生成论文摘要，辅助文献检索和阅读。

衍生相关工作

基于这些数据集，研究人员提出了许多经典的文本摘要模型和方法。例如，基于DailyMail Dataset和NYT Dataset，研究者提出了多种基于注意力机制的深度学习模型，显著提升了摘要生成的质量；基于Reddit Dataset，研究者探索了社交媒体文本的摘要生成策略，提出了适应短文本和用户生成内容的模型；基于PubMed Dataset，研究者开发了面向学术论文的摘要生成方法，为学术文献的自动化处理提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集