CNN/Daily Mail
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/CNN_Daily_Mail
下载链接
链接失效反馈官方服务:
资源简介:
CNN/Daily Mail 是文本摘要的数据集。人类生成的抽象摘要项目符号是从 CNN 和每日邮报网站中的新闻故事中生成的问题(其中一个实体被隐藏),故事作为相应的段落,系统预计从中回答填空问题。作者发布了从这些网站抓取、提取和生成成对段落和问题的脚本。
根据脚本的定义,该语料库总共有 286,817 个训练对、13,368 个验证对和 11,487 个测试对。训练集中的源文档平均有 766 个词,跨越 29.74 个句子,而摘要由 53 个词和 3.72 个句子组成。
提供机构:
OpenDataLab
创建时间:
2022-05-30



