five

GEM/OrangeSum

收藏
Hugging Face2022-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/OrangeSum
下载链接
链接失效反馈
官方服务:
资源简介:
OrangeSum是一个法语摘要生成数据集,灵感来源于XSum。它包含两个子任务:摘要生成和标题生成。数据来源于2011年至2020年的Orange Actu文章。数据集可以通过HuggingFace的datasets库加载,主要用于评估模型生成人类类似标题和摘要的能力。评估指标包括ROUGE和BERT-Score。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 名称: OrangeSum
  • 语言: 法语 (French)
  • 许可证: 其他 (other)
  • 任务类型: 摘要生成 (Summarization)
  • 数据来源: 原始数据 (original)

数据集详细描述

数据集概要

OrangeSum 是一个受 XSum 启发的法语摘要数据集,包含两个子任务:抽象生成和标题生成。数据来源于 2011 年至 2020 年的 "Orange Actu" 文章。

数据加载

可通过以下代码加载数据集:

python import datasets data = datasets.load_dataset(GEM/OrangeSum)

数据集结构

  • 数据集大小: 未知 (unknown)
  • 多语言性: 未知 (unknown)

数据集使用

  • 主要任务: 摘要生成
  • 支持的语言: 法语
  • 许可证: 其他

数据集下载和文档

评估方法

  • 自动评估: 使用 ROUGEBERT-Score 作为评估指标。
  • 人工评估: 通过最佳-最差缩放方法进行,评估基于准确性、信息性和流畅性。

数据集在 GEM 中的角色

  • GEM 特定修改: 无
  • GEM 提供的额外分割: 无

技术术语

  • 无独特技术术语。

先前结果

  • 模型能力测量: 测量模型生成人类风格标题和摘要的能力。
  • 先前结果可用性: 不可用

社会影响

  • 社会偏见: 无文档化社会偏见。
  • 语言生产者代表性: 数据集包含专业作者撰写的新闻文章。

使用考虑

  • 版权限制: 数据集和语言数据均允许商业使用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作