five

giuliadc/mlsum-fr

收藏
Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-fr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个法语文本摘要数据集,经过过滤处理,移除了16954个样本,主要用于文本摘要任务。过滤包括压缩比、完全重复、两者重复、摘要重复和参考重复等多个类别。

该数据集是一个法语文本摘要数据集,经过过滤处理,移除了16954个样本,主要用于文本摘要任务。过滤包括压缩比、完全重复、两者重复、摘要重复和参考重复等多个类别。
提供机构:
giuliadc
原始信息汇总

数据集概述

数据集名称

MLSUM-fr

数据集处理

  • 通过Aumiller et al. (2023)的方法进行过滤,具体使用的是https://github.com/dennlinger/summaries/tree/main库。
  • 原始数据集经过过滤后,共移除了16954个样本。

过滤详情

  • 压缩比率过滤

    • 训练集:移除45个样本
    • 验证集:移除2个样本
    • 测试集:移除0个样本
  • 完全重复过滤

    • 训练集:移除138个样本
    • 验证集:移除0个样本
    • 测试集:移除8个样本
  • 两者重复过滤

    • 训练集:移除466个样本
    • 验证集:移除0个样本
    • 测试集:移除0个样本
  • 摘要重复过滤

    • 训练集:移除2088个样本
    • 验证集:移除99个样本
    • 测试集:移除89个样本
  • 参考重复过滤

    • 训练集:移除13843个样本
    • 验证集:移除119个样本
    • 测试集:移除57个样本

语言

法语(fr)

任务类别

摘要生成(summarization)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作