ccdv/cnn_dailymail|文本摘要数据集|自然语言处理数据集

hugging_face2022-10-24 更新2024-03-04 收录

文本摘要

自然语言处理

下载链接：

https://hf-mirror.com/datasets/ccdv/cnn_dailymail

下载链接

链接失效反馈

资源简介：

CNN / DailyMail数据集是一个包含超过30万个独特新闻文章的英文数据集，由CNN和Daily Mail的记者撰写。该数据集支持提取式和抽象式摘要生成，旨在通过大量真实自然语言训练数据支持监督神经方法，用于机器阅读、问答和文本摘要任务。数据集包含文章、亮点和ID，分为训练、验证和测试集。数据收集自2007年至2015年，适用于训练模型以生成简洁的文本摘要，同时讨论了数据集的社会影响、偏见和其他已知限制。

提供机构：

ccdv

原始信息汇总

数据集概述

基本信息

名称: CNN / Daily Mail
语言: 英语（en）
许可证: Apache-2.0
多语言性: 单语
大小: 100K<n<1M
源数据: 原始数据
任务类别: 摘要生成、文本生成
标签: 条件文本生成

数据集描述

概述: 包含超过30万篇由CNN和Daily Mail记者撰写的独特新闻文章，支持提取式和抽象式摘要生成。
任务支持: 用于训练模型进行抽象和提取摘要生成，模型性能通过ROUGE评分衡量。
语言: 数据集主要使用美式英语（en-US）和英式英语（en-GB），其他英语变体情况未知。

数据集结构

数据实例: 每个实例包含文章、亮点和ID。
数据字段:
- id: 文章来源URL的SHA1哈希值
- article: 新闻文章主体
- highlights: 文章作者撰写的文章亮点
数据分割: 训练集（287,113实例）、验证集（13,368实例）、测试集（11,490实例）

数据集创建

采集理由: 最初用于支持机器阅读和问答的监督神经方法，后调整为支持摘要生成。
源数据: 数据包括新闻文章和亮点句子，文章来自CNN和Daily Mail，时间跨度为2007年至2015年。
注释: 数据集不包含额外注释。

使用数据注意事项

社会影响: 用于开发能够高效总结大量文本的模型。
偏见讨论: 数据集显示轻微性别偏见，且可能反映美国和英国的观点。
其他限制: 新闻文章的重要信息通常集中在前三分之一，机器生成的摘要可能与原文在真实性上存在差异。

附加信息

数据集维护者: 由Karl Moritz Hermann等Google DeepMind团队成员最初收集，后由Ramesh Nallapati等修改为摘要格式。
许可证: Apache-2.0
引用信息: 参考相关论文和代码库。
贡献者: 感谢多位GitHub用户的贡献。

AI搜集汇总

数据集介绍

构建方式

CNN/DailyMail数据集的构建基于CNN和《每日邮报》的新闻报道，涵盖了超过30万篇独特的新闻文章。数据集的初始版本（1.0.0）旨在支持机器阅读和问答任务，后续版本（2.0.0和3.0.0）则调整为支持摘要生成任务。数据收集通过Wayback Machine从CNN和《每日邮报》的存档中获取，并经过预处理以去除命名实体的匿名化处理。数据集的构建过程包括文章下载、实体隐藏、以及摘要生成等步骤，确保了数据的多样性和实用性。

特点

CNN/DailyMail数据集的主要特点在于其丰富的新闻文章内容和高质量的摘要标注。每篇文章均附有由记者撰写的摘要，这些摘要不仅简洁明了，而且能够准确捕捉文章的核心信息。数据集涵盖了广泛的新闻主题，确保了模型训练的多样性和泛化能力。此外，数据集的非匿名化版本（3.0.0）保留了原始文章中的命名实体，进一步提升了数据的真实性和可用性。

使用方法

CNN/DailyMail数据集广泛应用于文本摘要任务，尤其是抽象摘要和抽取摘要的模型训练。研究人员可以通过该数据集训练模型，生成与原文高度一致的摘要。数据集的使用通常涉及将文章作为输入，摘要作为目标输出，通过ROUGE等指标评估模型性能。此外，数据集还可用于研究新闻文本的语言特征、摘要生成中的偏差问题等。通过Hugging Face平台，用户可以轻松加载和探索该数据集，快速应用于各类自然语言处理任务。

背景与挑战

背景概述

CNN/DailyMail数据集由Google DeepMind的研究团队于2015年首次发布，旨在为机器阅读与理解任务提供大规模的自然语言训练数据。该数据集最初包含约31.3万篇新闻文章，并生成了近100万个Cloze风格的问答对。随着研究的深入，数据集逐渐演变为支持文本摘要任务，特别是抽象摘要和抽取摘要。数据集的核心研究问题在于如何通过神经网络模型生成高质量的文本摘要，以帮助用户快速理解长篇新闻内容。该数据集在自然语言处理领域具有重要影响力，尤其是在文本摘要和生成任务中，推动了多项前沿技术的发展。

当前挑战

CNN/DailyMail数据集在解决文本摘要任务时面临多重挑战。首先，新闻文章的结构通常遵循‘倒金字塔’模式，重要信息多集中于文章开头，这可能导致模型过度依赖前文而忽略后续内容。其次，数据集中存在一定的偏见问题，例如性别偏见和文化偏见，这可能影响模型的公平性和泛化能力。此外，构建过程中也面临技术挑战，例如数据匿名化与非匿名化版本的切换，以及从问答任务到摘要任务的格式转换。这些挑战不仅影响了数据集的构建质量，也对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

CNN/DailyMail数据集在自然语言处理领域中被广泛用于文本摘要任务。该数据集包含了超过30万篇新闻文章及其对应的摘要，适用于训练和评估自动摘要生成模型。研究人员通常使用该数据集来开发能够从长篇文章中提取关键信息的模型，尤其是在抽象摘要和抽取摘要任务中，模型的表现通过ROUGE分数进行评估。

衍生相关工作

基于CNN/DailyMail数据集，许多经典的研究工作得以展开。例如，Abigail See等人提出的指针生成网络（Pointer-Generator Networks）在该数据集上取得了显著的性能提升。此外，该数据集还催生了大量关于抽象摘要、抽取摘要以及多文档摘要的研究，推动了自然语言处理领域的技术进步。

数据集最近研究