giuliadc/mlsum-de-filtered
收藏Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-de-filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个德语摘要生成数据集,通过Aumiller等人的代码进行过滤。过滤标准包括摘要的最小长度为15,参考文本的最小长度为150,长度度量标准为whitespace,最小压缩比为2.5,摘要与原文之间的双字母重叠分数小于0.79,文章的最大长度为512个标记。数据集的大小在10K到100K之间。
该数据集是一个德语摘要生成数据集,通过Aumiller等人的代码进行过滤。过滤标准包括摘要的最小长度为15,参考文本的最小长度为150,长度度量标准为whitespace,最小压缩比为2.5,摘要与原文之间的双字母重叠分数小于0.79,文章的最大长度为512个标记。数据集的大小在10K到100K之间。
提供机构:
giuliadc
原始信息汇总
数据集概述
数据集属性
- 任务类别:总结(summarization)
- 语言:德语(de)
- 大小类别:10K<n<100K
数据集特征
- 摘要最小长度:15个字符
- 参考文本最小长度:150个字符
- 长度度量方式:空格计数
- 最小压缩比:2.5
- 双词重叠比例:摘要与原文之间的双词重叠比例小于0.79
- 最大文章长度:512个词
数据集来源
- 该数据集是通过Aumiller等人(2023)提供的代码过滤自German MLSUM,代码地址为https://github.com/dennlinger/summaries/tree/main。



