yhavinga/xsum_dutch
收藏Hugging Face2022-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/xsum_dutch
下载链接
链接失效反馈官方服务:
资源简介:
Extreme Summarization (XSum)荷兰语数据集是英文数据集XSum的荷兰语翻译版本。该数据集主要用于新闻文章摘要任务,包含三个特征:文档(输入新闻文章)、摘要(文章的一句话摘要)和ID(文章的BBC ID)。数据集的结构包括训练集、验证集和测试集,分别包含204045、11332和11334个实例。数据集的创建和注释过程未详细描述,但提到了使用Google的TPU Research Cloud进行翻译。
提供机构:
yhavinga
原始信息汇总
数据集概述
数据集名称
- 名称: Extreme Summarization (XSum) in Dutch
- 别名: xsum_dutch
语言
- 语言: Dutch (nl)
任务类别
- 任务类别: summarization
- 任务ID: news-articles-summarization
训练与评估索引
- 配置: default
- 任务: summarization
- 任务ID: summarization
- 数据分割:
- 训练分割: train
- 评估分割: test
- 列映射:
- 文档: text
- 摘要: target
- 评估指标:
- 类型: rouge
- 名称: Rouge
数据集结构
数据实例
-
示例:
{ "document": "some-body", "id": "29750031", "summary": "some-sentence" }
数据字段
- 文档: 字符串类型
- 摘要: 字符串类型
- ID: 字符串类型
数据分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| default | 204045 | 11332 | 11334 |
数据集特征
- 文档: 输入的新闻文章
- 摘要: 文章的一句摘要
- ID: 文章的BBC ID
数据集大小
- 下载数据集文件大小: 245.38 MB
- 生成数据集大小: 507.60 MB
- 总磁盘使用量: 752.98 MB



