giuliadc/cnndm-filtered
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/cnndm-filtered
下载链接
链接失效反馈官方服务:
资源简介:
CNN/DailyMail数据集经过过滤,使用了Aumiller等人的代码进行过滤。过滤条件包括摘要的最小长度为18,参考文本的最小长度为150,长度度量标准为whitespace,摘要与原文的双字母重叠分数不超过0.630,最小压缩比为2.5。此外,所有超过512个标记的文章都被移除,并且摘要中的换行符被替换为空格。
CNN/DailyMail数据集经过过滤,使用了Aumiller等人的代码进行过滤。过滤条件包括摘要的最小长度为18,参考文本的最小长度为150,长度度量标准为whitespace,摘要与原文的双字母重叠分数不超过0.630,最小压缩比为2.5。此外,所有超过512个标记的文章都被移除,并且摘要中的换行符被替换为空格。
提供机构:
giuliadc
原始信息汇总
数据集概述
任务类别
- 摘要生成
语言
- 英语
数据集处理
- 使用Aumiller等人提供的代码进行过滤,原始数据集来源于CNN/DailyMail。
- 代码仓库地址:https://github.com/dennlinger/summaries/tree/main
数据集参数
- 摘要最小长度:18个字符
- 参考文本最小长度:150个字符
- 长度计算方式:基于空格
- 双词重叠比例:不超过0.630
- 最小压缩比:2.5
数据集筛选条件
- 移除了所有超过512个令牌的文章
- 高亮文本中的换行符(" ")被替换为空格(" ")



