giuliadc/mlsum-fr-filtered
收藏Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-fr-filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是MLSUM数据集的法语部分,经过Aumiller等人提供的代码过滤。过滤条件包括:摘要的最小长度为18个字符,参考文本的最小长度为150个字符,长度度量标准为whitespace。摘要的提取方式为fully,最小压缩比为2.5,文章的最大长度为512个token。
该数据集是MLSUM数据集的法语部分,经过Aumiller等人提供的代码过滤。过滤条件包括:摘要的最小长度为18个字符,参考文本的最小长度为150个字符,长度度量标准为whitespace。摘要的提取方式为fully,最小压缩比为2.5,文章的最大长度为512个token。
提供机构:
giuliadc
原始信息汇总
数据集概述
数据集名称
MLSUM 数据集(法语部分)
数据集来源
通过Aumiller等人提供的代码进行筛选,代码地址为:https://github.com/dennlinger/summaries/tree/main
数据集任务类别
- 文本摘要
数据集语言
- 法语
数据集特征
- 摘要最小长度:18个字符
- 参考文献最小长度:150个字符
- 长度度量标准:"whitespace"
- 摘要抽取性:"fully"
- 最小压缩比:2.5
- 文章最大长度:512个字符
引用文献
Aumiller, D., Fan, J., & Gertz, M. (2023). On the State of German (Abstractive) Text Summarization. arXiv preprint arXiv:2301.07095.



