five

giuliadc/orangesum_filtered_new_spaces

收藏
Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/orangesum_filtered_new_spaces
下载链接
链接失效反馈
官方服务:
资源简介:
OrangeSum数据集是一个用于摘要生成任务的法语数据集,数据规模在1K到10K之间。数据集通过Aumiller等人的代码进行过滤,确保摘要的最小长度为18个字符,参考文本的最小长度为250个字符,长度度量标准为whitespace。摘要与原文的双字重叠分数小于0.65,表明所有摘要都是抽象性的。还对文章和摘要中的标点符号进行了处理,例如在句点和问号后添加空格,并删除了换行符。

The OrangeSum dataset is filtered using the code by Aumiller et al., containing French articles and their summaries, with the number of articles ranging from 1,000 to 10,000. The minimum length of summaries is 18 whitespace characters, and the minimum length of reference articles is 250 whitespace characters. The bi-gram overlap fraction between summaries and original text is less than 0.65, indicating that these summaries are abstractive in nature. Additionally, the dataset includes text cleaning operations in both articles and summaries, such as adding a space before letters following periods and question marks, and removing line breaks.
提供机构:
giuliadc
原始信息汇总

OrangeSum 数据集概述

任务类别

  • 摘要生成(Summarization)

语言

  • 法语(French)

数据规模

  • 1K < n < 10K

数据处理

  • 使用 Aumiller 等人的代码进行过滤,代码地址:https://github.com/dennlinger/summaries/tree/main
  • 摘要的最小长度为 18 个空白字符
  • 原文的最小长度为 250 个空白字符
  • 摘要与原文的二元组重叠比例小于 0.65,表明所有摘要均为抽象式摘要

文本规范化

  • 文章和摘要中,每个句号(".")后跟一个大写字母的情况被替换为句号后跟一个空格和相同的大写字母
  • 文章和摘要中,每个问号("?")后跟一个字母的情况被替换为问号后跟一个空格和相同的字母
  • 文章和摘要中,所有换行符(" ")被移除
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作