dsfsi/vukuzenzele-monolingual
收藏Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/vukuzenzele-monolingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于南非政府杂志Vukuzenzele,由Government Communication and Information System (GCIS)创建。数据集包含11种语言的政府杂志版本,每种语言的数据以JSONL格式存储,每行包含文章的标题、作者、文本、版本和语言代码。数据集主要用于翻译任务,且是多语言的。
提供机构:
dsfsi
原始信息汇总
数据集概述
基本信息
- 名称: The Vukuzenzele South African Multilingual Corpus
- 语言:
- 英语 (eng)
- 南非荷兰语 (afr)
- 北恩德贝勒语 (nbl)
- 科萨语 (xho)
- 祖鲁语 (zul)
- 塞索托语 (nso)
- 塞佩迪语 (sep)
- 茨瓦纳语 (tsn)
- 斯威士语 (ssw)
- 文达语 (ven)
- 聪加语 (tso)
- 许可证: CC-BY-4.0
- 任务类别: 翻译
- 标签: 多语言, 政府
- arXiv: 2303.0375
数据集结构
特征
每个语言配置包含以下特征:
- title: 字符串
- author: 字符串
- text: 字符串
- edition: 字符串
- language_code: 字符串
- index_level_0: 整数64位
分割
每个语言配置包含以下分割:
- train: 训练集
- test: 测试集
- eval: 评估集
具体配置
南非荷兰语 (afr)
- 训练集: 462140 字节, 130 个样本
- 测试集: 117811 字节, 28 个样本
- 评估集: 109553 字节, 29 个样本
- 下载大小: 431879 字节
- 数据集大小: 689504 字节
英语 (eng)
- 训练集: 369888 字节, 120 个样本
- 测试集: 89637 字节, 26 个样本
- 评估集: 77360 字节, 26 个样本
- 下载大小: 338733 字节
- 数据集大小: 536885 字节
北恩德贝勒语 (nbl)
- 训练集: 535653 字节, 132 个样本
- 测试集: 112521 字节, 28 个样本
- 评估集: 125205 字节, 29 个样本
- 下载大小: 494289 字节
- 数据集大小: 773379 字节
塞索托语 (nso)
- 训练集: 538443 字节, 128 个样本
- 测试集: 129131 字节, 27 个样本
- 评估集: 114196 字节, 28 个样本
- 下载大小: 452010 字节
- 数据集大小: 781770 字节
塞佩迪语 (sot)
- 训练集: 532606 字节, 131 个样本
- 测试集: 113414 字节, 28 个样本
- 评估集: 118072 字节, 29 个样本
- 下载大小: 453603 字节
- 数据集大小: 764092 字节
斯威士语 (ssw)
- 训练集: 526390 字节, 130 个样本
- 测试集: 116446 字节, 28 个样本
- 评估集: 121511 字节, 29 个样本
- 下载大小: 477822 字节
- 数据集大小: 764347 字节
茨瓦纳语 (tsn)
- 训练集: 622646 字节, 128 个样本
- 测试集: 121183 字节, 27 个样本
- 评估集: 127609 字节, 28 个样本
- 下载大小: 496882 字节
- 数据集大小: 871438 字节
聪加语 (tso)
- 训练集: 546021 字节, 128 个样本
- 测试集: 120869 字节, 28 个样本
- 评估集: 98419 字节, 28 个样本
- 下载大小: 446456 字节
- 数据集大小: 765309 字节
文达语 (ven)
- 训练集: 587325 字节, 128 个样本
- 测试集: 127171 字节, 28 个样本
- 评估集: 109780 字节, 28 个样本
- 下载大小: 461952 字节
- 数据集大小: 824276 字节
科萨语 (xho)
- 训练集: 518328 字节, 130 个样本
- 测试集: 120927 字节, 28 个样本
- 评估集: 113282 字节, 28 个样本
- 下载大小: 478513 字节
- 数据集大小: 752537 字节
祖鲁语 (zul)
- 训练集: 520964 字节, 129 个样本
- 测试集: 107058 字节, 28 个样本
- 评估集: 107359 字节, 28 个样本
- 下载大小: 459835 字节
- 数据集大小: 735381 字节



