giuliadc/mlsum-fr
收藏Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-fr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个法语文本摘要数据集,经过过滤处理,移除了16954个样本,主要用于文本摘要任务。过滤包括压缩比、完全重复、两者重复、摘要重复和参考重复等多个类别。
该数据集是一个法语文本摘要数据集,经过过滤处理,移除了16954个样本,主要用于文本摘要任务。过滤包括压缩比、完全重复、两者重复、摘要重复和参考重复等多个类别。
提供机构:
giuliadc
原始信息汇总
数据集概述
数据集名称
MLSUM-fr
数据集处理
- 通过Aumiller et al. (2023)的方法进行过滤,具体使用的是https://github.com/dennlinger/summaries/tree/main库。
- 原始数据集经过过滤后,共移除了16954个样本。
过滤详情
-
压缩比率过滤:
- 训练集:移除45个样本
- 验证集:移除2个样本
- 测试集:移除0个样本
-
完全重复过滤:
- 训练集:移除138个样本
- 验证集:移除0个样本
- 测试集:移除8个样本
-
两者重复过滤:
- 训练集:移除466个样本
- 验证集:移除0个样本
- 测试集:移除0个样本
-
摘要重复过滤:
- 训练集:移除2088个样本
- 验证集:移除99个样本
- 测试集:移除89个样本
-
参考重复过滤:
- 训练集:移除13843个样本
- 验证集:移除119个样本
- 测试集:移除57个样本
语言
法语(fr)
任务类别
摘要生成(summarization)



