CNN_Daily_Mail
收藏魔搭社区2025-10-20 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/CNN_Daily_Mail
下载链接
链接失效反馈官方服务:
资源简介:
displayName: CNN/Daily Mail
labelTypes:
- Text
- English Corpus
license:
- MIT
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1602.06023v5.pdf
publishDate: "2016"
publishUrl: https://github.com/abisee/cnn-dailymail
publisher:
- IBM Watson
- University of Montreal
tags:
- Text
taskTypes:
- Text Summarization/Simplication
- Visual Question Answering
---
# 数据集介绍
## 简介
CNN/Daily Mail 是文本摘要的数据集。人类生成的抽象摘要项目符号是从 CNN 和每日邮报网站中的新闻故事中生成的问题(其中一个实体被隐藏),故事作为相应的段落,系统预计从中回答填空问题。作者发布了从这些网站抓取、提取和生成成对段落和问题的脚本。
根据脚本的定义,该语料库总共有 286,817 个训练对、13,368 个验证对和 11,487 个测试对。训练集中的源文档平均有 766 个词,跨越 29.74 个句子,而摘要由 53 个词和 3.72 个句子组成。
## 引文
```
@article{nallapati2016abstractive,
title={Abstractive text summarization using sequence-to-sequence rnns and beyond},
author={Nallapati, Ramesh and Zhou, Bowen and Gulcehre, Caglar and Xiang, Bing and others},
journal={arXiv preprint arXiv:1602.06023},
year={2016}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: CNN/Daily Mail
标签类型:
- 文本
- 英语语料库
许可证:
- MIT 许可证(MIT)
媒体类型:
- 文本
论文链接:https://arxiv.org/pdf/1602.06023v5.pdf
发布日期:"2016"
发布仓库地址:https://github.com/abisee/cnn-dailymail
发布方:
- IBM Watson
- 蒙特利尔大学
标签:
- 文本
任务类型:
- 文本摘要与简化(Text Summarization/Simplication)
- 视觉问答(Visual Question Answering)
---
# 数据集介绍
## 简介
CNN/Daily Mail 是文本摘要领域的经典基准数据集。其人类生成的抽象式摘要以项目符号形式呈现,数据源自CNN与《每日邮报》新闻稿件中生成的隐去实体的填空式问题,对应的新闻段落则作为系统需从中提取信息以完成该填空问答的源文本。数据集作者公开了用于从上述两家媒体网站抓取、提取并生成段落与问题配对样本的脚本。
根据脚本预设的数据集划分规则,该语料库共包含286,817条训练样本对、13,368条验证样本对以及11,487条测试样本对。训练集中的源文档平均包含766个词,跨越29.74个句子;而其对应的摘要则平均由53个词、3.72个句子组成。
## 引文
@article{nallapati2016abstractive,
title={基于序列到序列循环神经网络及扩展方法的抽象式文本摘要},
author={Nallapati, Ramesh and Zhou, Bowen and Gulcehre, Caglar and Xiang, Bing and others},
journal={arXiv 预印本 arXiv:1602.06023},
year={2016}
}
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-09



