five

samyakmohelay/genai_dataset

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/samyakmohelay/genai_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CNN / DailyMail数据集是一个包含超过30万篇CNN和Daily Mail新闻文章的英文数据集,旨在支持提取和抽象摘要任务。该数据集包含每篇文章的高亮摘要,用于训练模型以生成文章的摘要。数据集有多个版本,每个版本都针对摘要任务进行了优化。数据集的创建涉及从特定时间段收集和规范化新闻文章,后续版本专注于摘要而非问答。该数据集根据Apache-2.0许可证发布,并已被用于探索摘要技术和偏见的各种研究中。

CNN / DailyMail数据集是一个包含超过30万篇CNN和Daily Mail新闻文章的英文数据集,旨在支持提取和抽象摘要任务。该数据集包含每篇文章的高亮摘要,用于训练模型以生成文章的摘要。数据集有多个版本,每个版本都针对摘要任务进行了优化。数据集的创建涉及从特定时间段收集和规范化新闻文章,后续版本专注于摘要而非问答。该数据集根据Apache-2.0许可证发布,并已被用于探索摘要技术和偏见的各种研究中。
提供机构:
samyakmohelay
原始信息汇总

数据集概述

数据集描述

数据集摘要

CNN / DailyMail 数据集是一个包含超过 30 万篇独特新闻文章的英语数据集,由 CNN 和 Daily Mail 的记者撰写。当前版本支持抽取式和抽象式摘要,尽管原始版本是为机器阅读和理解以及抽象式问答创建的。

支持的任务和排行榜

  • summarization: 版本 2.0.0 和 3.0.0 的数据集可用于训练抽象式和抽取式摘要模型。模型性能通过输出摘要与原文作者撰写的高亮部分的 ROUGE 分数来衡量。

语言

数据集中的英语使用的是美国和英国的通用英语(en-US 和 en-GB)。

数据集结构

数据实例

每个实例包含文章、高亮和 ID 的字符串。

数据字段

  • id: 包含故事来源 URL 的十六进制格式 SHA1 哈希的字符串
  • article: 包含新闻文章正文的字符串
  • highlights: 包含文章作者撰写的高亮部分的字符串

数据分割

CNN/DailyMail 数据集有三个分割:训练集、验证集和测试集。以下是版本 3.0.0 的数据集统计信息:

数据集分割 实例数量
训练集 287,113
验证集 13,368
测试集 11,490

数据集创建

策划理由

版本 1.0.0 旨在支持机器阅读和问答的监督神经方法,包含约 313k 篇独特文章和近 100 万个填空式问题。版本 2.0.0 和 3.0.0 改变了数据集结构,以支持摘要而非问答。版本 3.0.0 提供了非匿名化版本的数据。

源数据

初始数据收集和规范化

数据包括新闻文章和高亮句子。文章用于上下文,实体在摘要句子中隐藏,生成填空式问题。CNN 文章撰写于 2007 年 4 月至 2015 年 4 月,Daily Mail 文章撰写于 2010 年 6 月至 2015 年 4 月。

源语言生产者

文本由 CNN 和 Daily Mail 的记者撰写。

注释

数据集不包含任何额外注释。

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助开发能够将长段落文本总结为一两句话的模型。

偏见讨论

Bordia 和 Bowman (2019) 研究了 CNN / Dailymail 数据集中的性别偏见和去偏技术,发现该数据集相对于其他数据集具有较低的性别偏见,但仍显示出性别偏见。

其他已知限制

新闻文章通常在前三分之一部分主要呈现重要信息。Chen 等 (2016) 发现,第一版数据集的 25% 样本由于歧义和指代错误,即使对人类来说也难以正确回答。

附加信息

数据集策展人

数据最初由 Google DeepMind 的 Karl Moritz Hermann 等人收集。Ramesh Nallapati 等人修改了收集脚本,恢复了摘要格式,并提供了匿名化和非匿名化版本。Abigail See 等人公开了非匿名化版本的代码。

许可信息

CNN / DailyMail 数据集版本 1.0.0 在 Apache-2.0 许可证下发布。

引用信息

@inproceedings{see-etal-2017-get, title = "Get To The Point: Summarization with Pointer-Generator Networks", author = "See, Abigail and Liu, Peter J. and Manning, Christopher D.", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P17-1099", doi = "10.18653/v1/P17-1099", pages = "1073--1083", abstract = "Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.", }

@inproceedings{DBLP:conf/nips/HermannKGEKSB15, author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom}, title={Teaching Machines to Read and Comprehend}, year={2015}, cdate={1420070400000}, pages={1693-1701}, url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend}, booktitle={NIPS}, crossref={conf/nips/2015} }

贡献

感谢 @thomwolf 等人添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作