rlasseri/test-OrangeSum-small
收藏Hugging Face2022-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rlasseri/test-OrangeSum-small
下载链接
链接失效反馈官方服务:
资源简介:
OrangeSum数据集受XSum数据集启发,通过抓取法国电信公司Orange的新闻网站Orange Actu上的文章创建。数据集涵盖了2011年2月至2020年9月期间的新闻文章,分为五个主要类别:法国、世界、政治、汽车和社会。社会类别又进一步分为健康、环境、人物、文化、媒体、高科技、奇闻和杂项等八个子类别。每篇文章包含一个由作者撰写的单句标题和简短摘要,这两个字段被提取出来,形成了两个摘要生成任务:OrangeSum Title和OrangeSum Abstract。数据集主要用于法语文本的摘要生成任务。
The OrangeSum dataset, inspired by the XSum dataset, was constructed by scraping articles from Orange Actu, the news site of French telecommunications firm Orange. The dataset encompasses news articles spanning from February 2011 to September 2020, and is categorized into five primary groups: France, World, Politics, Automotive, and Society. The Society category is further split into eight subcategories: Health, Environment, People, Culture, Media, High-Tech, Oddities, and Miscellaneous. Each article includes a single-sentence author-written title and a concise summary, with these two fields extracted to establish two summarization tasks: OrangeSum Title and OrangeSum Abstract. This dataset is mainly designed for French text summarization tasks.
提供机构:
rlasseri
原始信息汇总
数据集概述
名称: OrangeSum
语言: 法语(fr)
许可证: 未知
多语言性: 单语
大小分类: 10K<n<100K
源数据集: 原始数据
任务类别: 摘要生成
任务ID: news-articles-headline-generation, news-articles-summarization
论文代码ID: orangesum
数据集结构
数据实例
每个数据实例包含一篇新闻文章及其摘要。摘要可以是简短的摘要或标题,取决于配置。
数据字段
- text: 待摘要的文档,数据类型为字符串。
- summary: 源文档的摘要,数据类型为字符串。
数据分割
数据分为训练集、验证集和测试集,两种配置如下:
| 训练集 | 验证集 | 测试集 | |
|---|---|---|---|
| 摘要配置 | 21400 | 1500 | 1500 |
| 标题配置 | 30658 | 1500 | 1500 |
数据集创建
源数据
每篇文章包含一个单句标题和一个非常简短的摘要。从每个新闻文章页面提取这两个字段,创建了两个摘要任务:OrangeSum Title 和 OrangeSum Abstract。
注释
摘要由文章作者专业编写。
个人和敏感信息
[更多信息待补充]



