OrangeSum
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/OrangeSum
下载链接
链接失效反馈官方服务:
资源简介:
OrangeSum 是一个单文档极端摘要数据集,具有两个任务:标题和摘要。标题和摘要任务的基本事实摘要平均长度分别为 11.42 和 32.12 个单词,而文档大小分别为 315 和 350 个单词。_x000D_
_x000D_
OrangeSum 的动机是将 XSum 数据集的法语等价物放在一起。_x000D_
_x000D_
与历史上的 CNN、DailyMail 和 NY Times 数据集不同,OrangeSum 需要模型显示高度抽象性才能表现良好。 OrangeSum 是通过从 Orange Actu 网站上抓取文章及其标题和摘要创建的。_x000D_
_x000D_
刮掉的页面涵盖了从 2011 年 2 月到 2020 年 9 月的近十年,分为五个主要类别:法国、世界、政治、汽车和社会。社会类别本身分为 8 个子类别:健康、环境、人、文化、媒体、高科技、不正常(法语中的“insolite”)和杂项。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
OrangeSum是一个单文档极端摘要数据集,包含标题和摘要两个任务,平均摘要长度分别为11.42和32.12个单词,文档长度约315-350个单词。该数据集旨在构建法语版的XSum,要求模型具备高度抽象能力,数据来源于2011年至2020年间Orange Actu网站的文章,涵盖法国、世界、政治、汽车和社会等多个类别。
以上内容由遇见数据集搜集并总结生成



