GEM/OrangeSum
收藏Hugging Face2022-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/OrangeSum
下载链接
链接失效反馈官方服务:
资源简介:
OrangeSum是一个法语摘要生成数据集,灵感来源于XSum。它包含两个子任务:摘要生成和标题生成。数据来源于2011年至2020年的Orange Actu文章。数据集可以通过HuggingFace的datasets库加载,主要用于评估模型生成人类类似标题和摘要的能力。评估指标包括ROUGE和BERT-Score。
提供机构:
GEM
原始信息汇总
数据集概述
数据集基本信息
- 名称: OrangeSum
- 语言: 法语 (
French) - 许可证: 其他 (
other) - 任务类型: 摘要生成 (
Summarization) - 数据来源: 原始数据 (
original)
数据集详细描述
数据集概要
OrangeSum 是一个受 XSum 启发的法语摘要数据集,包含两个子任务:抽象生成和标题生成。数据来源于 2011 年至 2020 年的 "Orange Actu" 文章。
数据加载
可通过以下代码加载数据集:
python import datasets data = datasets.load_dataset(GEM/OrangeSum)
数据集结构
- 数据集大小: 未知 (
unknown) - 多语言性: 未知 (
unknown)
数据集使用
- 主要任务: 摘要生成
- 支持的语言: 法语
- 许可证: 其他
数据集下载和文档
- 下载链接: GitHub
- 论文链接: ACL Anthology
评估方法
- 自动评估: 使用
ROUGE和BERT-Score作为评估指标。 - 人工评估: 通过最佳-最差缩放方法进行,评估基于准确性、信息性和流畅性。
数据集在 GEM 中的角色
- GEM 特定修改: 无
- GEM 提供的额外分割: 无
技术术语
- 无独特技术术语。
先前结果
- 模型能力测量: 测量模型生成人类风格标题和摘要的能力。
- 先前结果可用性: 不可用
社会影响
- 社会偏见: 无文档化社会偏见。
- 语言生产者代表性: 数据集包含专业作者撰写的新闻文章。
使用考虑
- 版权限制: 数据集和语言数据均允许商业使用。



