five

OrangeSum

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/OrangeSum
下载链接
链接失效反馈
官方服务:
资源简介:
OrangeSum 是一个单文档极端摘要数据集,具有两个任务:标题和摘要。标题和摘要任务的基本事实摘要平均长度分别为 11.42 和 32.12 个单词,而文档大小分别为 315 和 350 个单词。_x000D_ _x000D_ OrangeSum 的动机是将 XSum 数据集的法语等价物放在一起。_x000D_ _x000D_ 与历史上的 CNN、DailyMail 和 NY Times 数据集不同,OrangeSum 需要模型显示高度抽象性才能表现良好。 OrangeSum 是通过从 Orange Actu 网站上抓取文章及其标题和摘要创建的。_x000D_ _x000D_ 刮掉的页面涵盖了从 2011 年 2 月到 2020 年 9 月的近十年,分为五个主要类别:法国、世界、政治、汽车和社会。社会类别本身分为 8 个子类别:健康、环境、人、文化、媒体、高科技、不正常(法语中的“insolite”)和杂项。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
OrangeSum是一个单文档极端摘要数据集,包含标题和摘要两个任务,平均摘要长度分别为11.42和32.12个单词,文档长度约315-350个单词。该数据集旨在构建法语版的XSum,要求模型具备高度抽象能力,数据来源于2011年至2020年间Orange Actu网站的文章,涵盖法国、世界、政治、汽车和社会等多个类别。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作