five

yhavinga/xsum_dutch

收藏
Hugging Face2022-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/xsum_dutch
下载链接
链接失效反馈
官方服务:
资源简介:
Extreme Summarization (XSum)荷兰语数据集是英文数据集XSum的荷兰语翻译版本。该数据集主要用于新闻文章摘要任务,包含三个特征:文档(输入新闻文章)、摘要(文章的一句话摘要)和ID(文章的BBC ID)。数据集的结构包括训练集、验证集和测试集,分别包含204045、11332和11334个实例。数据集的创建和注释过程未详细描述,但提到了使用Google的TPU Research Cloud进行翻译。
提供机构:
yhavinga
原始信息汇总

数据集概述

数据集名称

  • 名称: Extreme Summarization (XSum) in Dutch
  • 别名: xsum_dutch

语言

  • 语言: Dutch (nl)

任务类别

  • 任务类别: summarization
  • 任务ID: news-articles-summarization

训练与评估索引

  • 配置: default
  • 任务: summarization
  • 任务ID: summarization
  • 数据分割:
    • 训练分割: train
    • 评估分割: test
  • 列映射:
    • 文档: text
    • 摘要: target
  • 评估指标:
    • 类型: rouge
    • 名称: Rouge

数据集结构

数据实例

  • 示例:

    { "document": "some-body", "id": "29750031", "summary": "some-sentence" }

数据字段

  • 文档: 字符串类型
  • 摘要: 字符串类型
  • ID: 字符串类型

数据分割

名称 训练 验证 测试
default 204045 11332 11334

数据集特征

  • 文档: 输入的新闻文章
  • 摘要: 文章的一句摘要
  • ID: 文章的BBC ID

数据集大小

  • 下载数据集文件大小: 245.38 MB
  • 生成数据集大小: 507.60 MB
  • 总磁盘使用量: 752.98 MB
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作