five

giuliadc/mlsum-de-filtered

收藏
Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-de-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个德语摘要生成数据集,通过Aumiller等人的代码进行过滤。过滤标准包括摘要的最小长度为15,参考文本的最小长度为150,长度度量标准为whitespace,最小压缩比为2.5,摘要与原文之间的双字母重叠分数小于0.79,文章的最大长度为512个标记。数据集的大小在10K到100K之间。

该数据集是一个德语摘要生成数据集,通过Aumiller等人的代码进行过滤。过滤标准包括摘要的最小长度为15,参考文本的最小长度为150,长度度量标准为whitespace,最小压缩比为2.5,摘要与原文之间的双字母重叠分数小于0.79,文章的最大长度为512个标记。数据集的大小在10K到100K之间。
提供机构:
giuliadc
原始信息汇总

数据集概述

数据集属性

  • 任务类别:总结(summarization)
  • 语言:德语(de)
  • 大小类别:10K<n<100K

数据集特征

  • 摘要最小长度:15个字符
  • 参考文本最小长度:150个字符
  • 长度度量方式:空格计数
  • 最小压缩比:2.5
  • 双词重叠比例:摘要与原文之间的双词重叠比例小于0.79
  • 最大文章长度:512个词

数据集来源

  • 该数据集是通过Aumiller等人(2023)提供的代码过滤自German MLSUM,代码地址为https://github.com/dennlinger/summaries/tree/main。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作