samyakmohelay/genai_dataset
收藏数据集概述
数据集描述
数据集摘要
CNN / DailyMail 数据集是一个包含超过 30 万篇独特新闻文章的英语数据集,由 CNN 和 Daily Mail 的记者撰写。当前版本支持抽取式和抽象式摘要,尽管原始版本是为机器阅读和理解以及抽象式问答创建的。
支持的任务和排行榜
- summarization: 版本 2.0.0 和 3.0.0 的数据集可用于训练抽象式和抽取式摘要模型。模型性能通过输出摘要与原文作者撰写的高亮部分的 ROUGE 分数来衡量。
语言
数据集中的英语使用的是美国和英国的通用英语(en-US 和 en-GB)。
数据集结构
数据实例
每个实例包含文章、高亮和 ID 的字符串。
数据字段
id: 包含故事来源 URL 的十六进制格式 SHA1 哈希的字符串article: 包含新闻文章正文的字符串highlights: 包含文章作者撰写的高亮部分的字符串
数据分割
CNN/DailyMail 数据集有三个分割:训练集、验证集和测试集。以下是版本 3.0.0 的数据集统计信息:
| 数据集分割 | 实例数量 |
|---|---|
| 训练集 | 287,113 |
| 验证集 | 13,368 |
| 测试集 | 11,490 |
数据集创建
策划理由
版本 1.0.0 旨在支持机器阅读和问答的监督神经方法,包含约 313k 篇独特文章和近 100 万个填空式问题。版本 2.0.0 和 3.0.0 改变了数据集结构,以支持摘要而非问答。版本 3.0.0 提供了非匿名化版本的数据。
源数据
初始数据收集和规范化
数据包括新闻文章和高亮句子。文章用于上下文,实体在摘要句子中隐藏,生成填空式问题。CNN 文章撰写于 2007 年 4 月至 2015 年 4 月,Daily Mail 文章撰写于 2010 年 6 月至 2015 年 4 月。
源语言生产者
文本由 CNN 和 Daily Mail 的记者撰写。
注释
数据集不包含任何额外注释。
使用数据的注意事项
数据集的社会影响
该数据集旨在帮助开发能够将长段落文本总结为一两句话的模型。
偏见讨论
Bordia 和 Bowman (2019) 研究了 CNN / Dailymail 数据集中的性别偏见和去偏技术,发现该数据集相对于其他数据集具有较低的性别偏见,但仍显示出性别偏见。
其他已知限制
新闻文章通常在前三分之一部分主要呈现重要信息。Chen 等 (2016) 发现,第一版数据集的 25% 样本由于歧义和指代错误,即使对人类来说也难以正确回答。
附加信息
数据集策展人
数据最初由 Google DeepMind 的 Karl Moritz Hermann 等人收集。Ramesh Nallapati 等人修改了收集脚本,恢复了摘要格式,并提供了匿名化和非匿名化版本。Abigail See 等人公开了非匿名化版本的代码。
许可信息
CNN / DailyMail 数据集版本 1.0.0 在 Apache-2.0 许可证下发布。
引用信息
@inproceedings{see-etal-2017-get, title = "Get To The Point: Summarization with Pointer-Generator Networks", author = "See, Abigail and Liu, Peter J. and Manning, Christopher D.", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P17-1099", doi = "10.18653/v1/P17-1099", pages = "1073--1083", abstract = "Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.", }
@inproceedings{DBLP:conf/nips/HermannKGEKSB15, author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom}, title={Teaching Machines to Read and Comprehend}, year={2015}, cdate={1420070400000}, pages={1693-1701}, url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend}, booktitle={NIPS}, crossref={conf/nips/2015} }
贡献
感谢 @thomwolf 等人添加此数据集。



