abisee/cnn_dailymail

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/abisee/cnn_dailymail

下载链接

链接失效反馈

资源简介：

CNN / DailyMail数据集是一个包含超过30万篇新闻文章的英文数据集，主要用于摘要生成任务。数据集最初是为机器阅读和理解以及抽象问答而创建的，但后续版本支持提取式和生成式摘要。数据集包含文章、摘要和ID三个字段，分为训练集、验证集和测试集三个部分。数据集的创建目的是为了帮助开发能够总结长文本的模型。

提供机构：

abisee

原始信息汇总

数据集概述

名称: CNN / Daily Mail

语言: 英语（en）

许可证: Apache-2.0

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别: 摘要生成

任务ID: news-articles-summarization

论文代码ID: cnn-daily-mail-1

配置版本: 1.0.0, 2.0.0, 3.0.0

数据集结构

数据实例

id: 字符串，文章来源URL的SHA1哈希值
article: 字符串，新闻文章内容
highlights: 字符串，文章摘要

数据分割

训练集: 287,113个实例
验证集: 13,368个实例
测试集: 11,490个实例

数据集创建

源数据

来源: CNN和Daily Mail的新闻文章
时间范围: CNN (2007年4月至2015年4月), Daily Mail (2010年6月至2015年4月)

数据处理

初始收集: 使用Wayback Machine下载文章
数据限制: 文章长度不超过2000个词
数据格式: 文章和摘要的文本格式

许可证

版本1.0.0: Apache-2.0许可证

引用信息

@inproceedings{see-etal-2017-get, title = "Get To The Point: Summarization with Pointer-Generator Networks", author = "See, Abigail and Liu, Peter J. and Manning, Christopher D.", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P17-1099", doi = "10.18653/v1/P17-1099", pages = "1073--1083", abstract = "Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.", }

@inproceedings{DBLP:conf/nips/HermannKGEKSB15, author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom}, title={Teaching Machines to Read and Comprehend}, year={2015}, cdate={1420070400000}, pages={1693-1701}, url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend}, booktitle={NIPS}, crossref={conf/nips/2015} }

搜集汇总

数据集介绍

构建方式

CNN / DailyMail 数据集的构建基于对CNN和Daily Mail两家媒体机构所发布的新闻文章的收集。该数据集旨在为文本摘要任务提供支持，包含超过30万篇独特的新闻文章。构建过程中，首先通过抓取www.cnn.com和www.dailymail.co.uk网站上的文章存档来收集数据，接着对文章进行预处理，包括分词、小写转换以及添加缺失的句号。数据集分为训练集、验证集和测试集三个部分，每个部分均包含文章正文和由原作者撰写的文章摘要。

特点

该数据集的特点在于其来源的权威性，文章来自知名新闻机构，保证了内容的多样性和质量。同时，数据集支持提取式和摘要式两种摘要方法，为研究者提供了灵活的应用选择。此外，数据集未经过匿名化处理，保留了原始的文本信息，使得个人名称等敏感信息得以保留，便于进行更深入的文本分析。数据集的构建考虑了机器阅读和理解的训练需求，提供了大量真实世界的自然语言训练数据。

使用方法

使用CNN / DailyMail数据集时，用户可以根据需要选择不同版本的数据集。数据集的使用包括下载相应的数据文件，并根据提供的 splits 来分别获取训练集、验证集和测试集。数据集的每个实例都包含一个唯一的ID、文章正文和摘要。用户可以利用这些数据来训练文本摘要模型，并通过ROUGE评分来评估模型性能。数据集的使用需遵循Apache-2.0许可证的规定。

背景与挑战

背景概述

CNN / Daily Mail数据集是一个英文数据集，包含了由CNN和Daily Mail记者撰写的超过30万篇独特新闻文章。该数据集最初旨在支持监督式神经方法在机器阅读和问答方面的应用，提供了大量的真实自然语言训练数据。随后，数据集的结构被修改以支持摘要任务，而非问答。该数据集由Google DeepMind的研究人员最初收集，并由斯坦福大学的研究人员Abigail See等进一步开发和维护。CNN / Daily Mail数据集的研究背景主要包括支持文本摘要模型的发展，特别是在自动生成新闻摘要方面具有显著影响力。

当前挑战

在构建CNN / Daily Mail数据集的过程中，研究人员面临了多个挑战。首先，数据集的构建需要处理大量的新闻文章，并确保文章与摘要的一致性。其次，为了支持摘要任务，数据集的结构需要从原本的问答形式调整为摘要形式。此外，数据集在处理过程中还需要考虑匿名化和个人敏感信息的保护。在研究领域问题方面，数据集解决了如何自动从长篇文本中提取关键信息并生成简洁摘要的挑战，这对于提高信息获取效率具有重要意义。

常用场景

经典使用场景

CNN / DailyMail数据集是自然语言处理领域中的重要资源，其经典使用场景主要聚焦于文本摘要任务。该数据集包含了CNN和Daily Mail两家媒体撰写的新闻文章及其摘要，为研究者提供了丰富的训练材料，以便开发能够自动生成新闻摘要的机器学习模型。通过这一数据集，模型可以学习到如何从长篇文本中提炼关键信息，生成简洁且信息量大的摘要，服务于信息快速传递的需求。

衍生相关工作

基于CNN / DailyMail数据集，学术界衍生出了一系列相关工作，如指针生成网络和覆盖机制等技术的应用，这些技术显著提升了文本摘要的性能。同时，也有研究者利用该数据集来探讨和缓解性别偏见等社会问题，进一步推动了自然语言处理技术的伦理发展。

数据集最近研究