five

giuliadc/mlsum-fr-filtered

收藏
Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/mlsum-fr-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是MLSUM数据集的法语部分,经过Aumiller等人提供的代码过滤。过滤条件包括:摘要的最小长度为18个字符,参考文本的最小长度为150个字符,长度度量标准为whitespace。摘要的提取方式为fully,最小压缩比为2.5,文章的最大长度为512个token。

该数据集是MLSUM数据集的法语部分,经过Aumiller等人提供的代码过滤。过滤条件包括:摘要的最小长度为18个字符,参考文本的最小长度为150个字符,长度度量标准为whitespace。摘要的提取方式为fully,最小压缩比为2.5,文章的最大长度为512个token。
提供机构:
giuliadc
原始信息汇总

数据集概述

数据集名称

MLSUM 数据集(法语部分)

数据集来源

通过Aumiller等人提供的代码进行筛选,代码地址为:https://github.com/dennlinger/summaries/tree/main

数据集任务类别

  • 文本摘要

数据集语言

  • 法语

数据集特征

  • 摘要最小长度:18个字符
  • 参考文献最小长度:150个字符
  • 长度度量标准:"whitespace"
  • 摘要抽取性:"fully"
  • 最小压缩比:2.5
  • 文章最大长度:512个字符

引用文献

Aumiller, D., Fan, J., & Gertz, M. (2023). On the State of German (Abstractive) Text Summarization. arXiv preprint arXiv:2301.07095.

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作