giuliadc/orangesum_filtered_new_spaces
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/giuliadc/orangesum_filtered_new_spaces
下载链接
链接失效反馈官方服务:
资源简介:
OrangeSum数据集是一个用于摘要生成任务的法语数据集,数据规模在1K到10K之间。数据集通过Aumiller等人的代码进行过滤,确保摘要的最小长度为18个字符,参考文本的最小长度为250个字符,长度度量标准为whitespace。摘要与原文的双字重叠分数小于0.65,表明所有摘要都是抽象性的。还对文章和摘要中的标点符号进行了处理,例如在句点和问号后添加空格,并删除了换行符。
The OrangeSum dataset is filtered using the code by Aumiller et al., containing French articles and their summaries, with the number of articles ranging from 1,000 to 10,000. The minimum length of summaries is 18 whitespace characters, and the minimum length of reference articles is 250 whitespace characters. The bi-gram overlap fraction between summaries and original text is less than 0.65, indicating that these summaries are abstractive in nature. Additionally, the dataset includes text cleaning operations in both articles and summaries, such as adding a space before letters following periods and question marks, and removing line breaks.
提供机构:
giuliadc
原始信息汇总
OrangeSum 数据集概述
任务类别
- 摘要生成(Summarization)
语言
- 法语(French)
数据规模
- 1K < n < 10K
数据处理
- 使用 Aumiller 等人的代码进行过滤,代码地址:https://github.com/dennlinger/summaries/tree/main
- 摘要的最小长度为 18 个空白字符
- 原文的最小长度为 250 个空白字符
- 摘要与原文的二元组重叠比例小于 0.65,表明所有摘要均为抽象式摘要
文本规范化
- 文章和摘要中,每个句号(".")后跟一个大写字母的情况被替换为句号后跟一个空格和相同的大写字母
- 文章和摘要中,每个问号("?")后跟一个字母的情况被替换为问号后跟一个空格和相同的字母
- 文章和摘要中,所有换行符(" ")被移除



