five

giuliadc/cnndm-filtered

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/cnndm-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
CNN/DailyMail数据集经过过滤,使用了Aumiller等人的代码进行过滤。过滤条件包括摘要的最小长度为18,参考文本的最小长度为150,长度度量标准为whitespace,摘要与原文的双字母重叠分数不超过0.630,最小压缩比为2.5。此外,所有超过512个标记的文章都被移除,并且摘要中的换行符被替换为空格。

CNN/DailyMail数据集经过过滤,使用了Aumiller等人的代码进行过滤。过滤条件包括摘要的最小长度为18,参考文本的最小长度为150,长度度量标准为whitespace,摘要与原文的双字母重叠分数不超过0.630,最小压缩比为2.5。此外,所有超过512个标记的文章都被移除,并且摘要中的换行符被替换为空格。
提供机构:
giuliadc
原始信息汇总

数据集概述

任务类别

  • 摘要生成

语言

  • 英语

数据集处理

数据集参数

  • 摘要最小长度:18个字符
  • 参考文本最小长度:150个字符
  • 长度计算方式:基于空格
  • 双词重叠比例:不超过0.630
  • 最小压缩比:2.5

数据集筛选条件

  • 移除了所有超过512个令牌的文章
  • 高亮文本中的换行符(" ")被替换为空格(" ")
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作