five

CNN/DailyMail Dataset, NYT Dataset, DUC Dataset, Reddit Dataset, AMI Dataset, PubMed Dataset

收藏
github2024-03-03 更新2024-05-31 收录
下载链接:
https://github.com/kedz/summarization-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集用于论文Content Selection in Deep Learning Models of Summarization中的深度学习模型摘要内容选择研究。每个数据集都有详细的预处理和下载指导,包括CNN/DailyMail、NYT、DUC、Reddit、AMI和PubMed数据集。

本数据集旨在支持论文《深度学习模型摘要内容选择》的研究,旨在探究深度学习技术在摘要内容选择领域的应用。各数据集均附有详尽的预处理步骤与下载指南,涵盖CNN/DailyMail、NYT、DUC、Reddit、AMI及PubMed等多个知名数据集。
创建时间:
2018-07-19
原始信息汇总

数据集概述

CNN/DailyMail Dataset

  • 预处理命令python summarization-datasets/preprocess_cnn_dailymail.py --data-dir data/
  • 数据存储位置data/cnn-dailymail
  • 特点:数据集较大,预处理时间较长。

NYT Dataset

  • 数据获取:需从LDC获取原始文档,链接为https://catalog.ldc.upenn.edu/LDC2008T19
  • 预处理命令python summarization-datasets/preprocess_nyt.py --nyt raw_data/nyt_corpus --data-dir data
  • 数据存储位置data/nyt/

DUC Dataset

  • 数据获取:需签署NIST的发布表格并获取用户名和密码。
  • 预处理命令python summarization-datasets/preprocess_duc_sds.py --duc2001 raw_data/DUC2001_Summarization_Documents.tgz --duc2002-documents raw_data/DUC2002_Summarization_Documents.tgz --duc2002-summaries raw_data/DUC2002_test_data.tar.gz --data-dir data
  • 数据存储位置data/duc-sds/

Reddit Dataset

  • 预处理命令python summarization-datasets/preprocess_reddit.py --data-dir data/
  • 数据存储位置data/reddit

AMI Dataset

  • 预处理命令python summarization-datasets/preprocess_ami.py --data-dir data/
  • 数据存储位置data/ami

PubMed Dataset

  • 预处理命令python summarization-datasets/preprocess_pubmed.py --data-dir data/
  • 数据存储位置data/pubmed
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程涉及多个步骤,包括数据下载、预处理和格式化。对于CNN/DailyMail数据集,用户需运行特定的预处理脚本,将原始数据转换为适用于深度学习模型的格式。NYT数据集则需要从LDC获取原始文档,并通过解压和预处理脚本生成最终数据。DUC数据集的处理更为复杂,用户需先与NIST签署协议并获取数据文件,随后通过脚本进行解压和预处理。Reddit、AMI和PubMed数据集则通过相应的预处理脚本直接生成所需数据。
特点
该数据集涵盖了多个领域的文本数据,包括新闻、社交媒体和学术文献。CNN/DailyMail和NYT数据集提供了丰富的新闻文本,DUC数据集则专注于摘要生成任务。Reddit数据集捕捉了社交媒体上的多样化讨论,AMI数据集则包含了会议记录,而PubMed数据集则聚焦于生物医学领域的学术文献。这些数据集不仅规模庞大,而且具有高度的多样性和专业性,适用于多种自然语言处理任务。
使用方法
使用该数据集时,用户需确保Python环境为3.6或更高版本,并安装必要的依赖库。对于每个数据集,用户需运行相应的预处理脚本,指定数据目录以生成格式化后的数据。例如,CNN/DailyMail数据集的预处理脚本为`preprocess_cnn_dailymail.py`,用户需指定`--data-dir`参数以确定数据存储位置。其他数据集的使用方法类似,用户需根据具体需求调整脚本参数。预处理完成后,生成的数据可直接用于深度学习模型的训练和评估。
背景与挑战
背景概述
DailyMail Dataset、NYT Dataset、DUC Dataset、Reddit Dataset、AMI Dataset和PubMed Dataset是自然语言处理领域中用于文本摘要任务的重要数据集。这些数据集由多个研究机构和组织创建,旨在推动深度学习模型在自动摘要生成中的应用。CNN/DailyMail Dataset和NYT Dataset分别基于新闻文章,DUC Dataset由美国国家标准与技术研究院(NIST)提供,Reddit Dataset则来源于社交媒体平台,AMI Dataset专注于会议记录,而PubMed Dataset则基于医学文献。这些数据集在文本摘要领域的研究中发挥了重要作用,为模型训练和评估提供了丰富的语料资源。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,数据预处理复杂度高,尤其是NYT Dataset和DUC Dataset需要从原始数据中提取并转换格式,涉及大量手动操作和特定权限获取。其次,数据规模庞大,如CNN/DailyMail Dataset和PubMed Dataset,其预处理过程耗时较长,对计算资源要求较高。此外,数据来源的多样性导致文本风格和质量差异显著,例如Reddit Dataset的非正式语言与PubMed Dataset的专业术语形成鲜明对比,这对模型的泛化能力提出了更高要求。最后,如何确保摘要的准确性和连贯性,尤其是在多领域文本中,仍然是一个亟待解决的核心问题。
常用场景
经典使用场景
在自然语言处理领域,DailyMail Dataset、NYT Dataset、DUC Dataset、Reddit Dataset、AMI Dataset和PubMed Dataset等数据集被广泛应用于文本摘要任务的研究。这些数据集涵盖了新闻文章、社交媒体帖子、学术论文等多种文本类型,为深度学习模型提供了丰富的训练和测试素材。研究人员通过这些数据集,能够深入探讨不同文本类型下的摘要生成策略,优化模型的性能。
实际应用
在实际应用中,这些数据集被广泛用于新闻摘要、社交媒体内容提炼、学术论文摘要生成等场景。例如,新闻机构可以利用这些数据集训练模型,自动生成新闻摘要,提高信息传播效率;社交媒体平台可以通过这些数据集,提炼用户生成内容的关键信息,帮助用户快速获取有价值的信息;学术研究者则可以利用这些数据集,生成论文摘要,辅助文献检索和阅读。
衍生相关工作
基于这些数据集,研究人员提出了许多经典的文本摘要模型和方法。例如,基于DailyMail Dataset和NYT Dataset,研究者提出了多种基于注意力机制的深度学习模型,显著提升了摘要生成的质量;基于Reddit Dataset,研究者探索了社交媒体文本的摘要生成策略,提出了适应短文本和用户生成内容的模型;基于PubMed Dataset,研究者开发了面向学术论文的摘要生成方法,为学术文献的自动化处理提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作