five

dsfsi/vukuzenzele-monolingual

收藏
Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/vukuzenzele-monolingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于南非政府杂志Vukuzenzele,由Government Communication and Information System (GCIS)创建。数据集包含11种语言的政府杂志版本,每种语言的数据以JSONL格式存储,每行包含文章的标题、作者、文本、版本和语言代码。数据集主要用于翻译任务,且是多语言的。
提供机构:
dsfsi
原始信息汇总

数据集概述

基本信息

  • 名称: The Vukuzenzele South African Multilingual Corpus
  • 语言:
    • 英语 (eng)
    • 南非荷兰语 (afr)
    • 北恩德贝勒语 (nbl)
    • 科萨语 (xho)
    • 祖鲁语 (zul)
    • 塞索托语 (nso)
    • 塞佩迪语 (sep)
    • 茨瓦纳语 (tsn)
    • 斯威士语 (ssw)
    • 文达语 (ven)
    • 聪加语 (tso)
  • 许可证: CC-BY-4.0
  • 任务类别: 翻译
  • 标签: 多语言, 政府
  • arXiv: 2303.0375

数据集结构

特征

每个语言配置包含以下特征:

  • title: 字符串
  • author: 字符串
  • text: 字符串
  • edition: 字符串
  • language_code: 字符串
  • index_level_0: 整数64位

分割

每个语言配置包含以下分割:

  • train: 训练集
  • test: 测试集
  • eval: 评估集

具体配置

南非荷兰语 (afr)

  • 训练集: 462140 字节, 130 个样本
  • 测试集: 117811 字节, 28 个样本
  • 评估集: 109553 字节, 29 个样本
  • 下载大小: 431879 字节
  • 数据集大小: 689504 字节

英语 (eng)

  • 训练集: 369888 字节, 120 个样本
  • 测试集: 89637 字节, 26 个样本
  • 评估集: 77360 字节, 26 个样本
  • 下载大小: 338733 字节
  • 数据集大小: 536885 字节

北恩德贝勒语 (nbl)

  • 训练集: 535653 字节, 132 个样本
  • 测试集: 112521 字节, 28 个样本
  • 评估集: 125205 字节, 29 个样本
  • 下载大小: 494289 字节
  • 数据集大小: 773379 字节

塞索托语 (nso)

  • 训练集: 538443 字节, 128 个样本
  • 测试集: 129131 字节, 27 个样本
  • 评估集: 114196 字节, 28 个样本
  • 下载大小: 452010 字节
  • 数据集大小: 781770 字节

塞佩迪语 (sot)

  • 训练集: 532606 字节, 131 个样本
  • 测试集: 113414 字节, 28 个样本
  • 评估集: 118072 字节, 29 个样本
  • 下载大小: 453603 字节
  • 数据集大小: 764092 字节

斯威士语 (ssw)

  • 训练集: 526390 字节, 130 个样本
  • 测试集: 116446 字节, 28 个样本
  • 评估集: 121511 字节, 29 个样本
  • 下载大小: 477822 字节
  • 数据集大小: 764347 字节

茨瓦纳语 (tsn)

  • 训练集: 622646 字节, 128 个样本
  • 测试集: 121183 字节, 27 个样本
  • 评估集: 127609 字节, 28 个样本
  • 下载大小: 496882 字节
  • 数据集大小: 871438 字节

聪加语 (tso)

  • 训练集: 546021 字节, 128 个样本
  • 测试集: 120869 字节, 28 个样本
  • 评估集: 98419 字节, 28 个样本
  • 下载大小: 446456 字节
  • 数据集大小: 765309 字节

文达语 (ven)

  • 训练集: 587325 字节, 128 个样本
  • 测试集: 127171 字节, 28 个样本
  • 评估集: 109780 字节, 28 个样本
  • 下载大小: 461952 字节
  • 数据集大小: 824276 字节

科萨语 (xho)

  • 训练集: 518328 字节, 130 个样本
  • 测试集: 120927 字节, 28 个样本
  • 评估集: 113282 字节, 28 个样本
  • 下载大小: 478513 字节
  • 数据集大小: 752537 字节

祖鲁语 (zul)

  • 训练集: 520964 字节, 129 个样本
  • 测试集: 107058 字节, 28 个样本
  • 评估集: 107359 字节, 28 个样本
  • 下载大小: 459835 字节
  • 数据集大小: 735381 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作