dsfsi/vukuzenzele-sentence-aligned
收藏Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/vukuzenzele-sentence-aligned
下载链接
链接失效反馈官方服务:
资源简介:
Vukuzenzele南非多语言语料库是一个支持多种语言的数据集,包括英语、南非荷兰语以及多种南非本土语言。该数据集设计用于句子相似性和翻译任务。数据集被结构化为多种配置,每种配置对应一对语言,数据文件分为训练集、测试集和评估集。每个配置的详细信息包括特征、数据分割和大小。
Vukuzenzele南非多语言语料库是一个支持多种语言的数据集,包括英语、南非荷兰语以及多种南非本土语言。该数据集设计用于句子相似性和翻译任务。数据集被结构化为多种配置,每种配置对应一对语言,数据文件分为训练集、测试集和评估集。每个配置的详细信息包括特征、数据分割和大小。
提供机构:
dsfsi
原始信息汇总
数据集概述
基本信息
- 名称: The Vukuzenzele South African Multilingual Corpus
- 语言: 包含英语(eng)和多种南非当地语言(afr, afr, nbl, xho, zul, sot, nso, tsn, ssw, ven, tso)
- 许可证: CC-BY-4.0
- 任务类别: 句子相似度、翻译
- 标签: 多语言、政府
- 相关论文: arXiv:2303.0375
数据配置
数据集包含多个配置,每个配置对应不同的语言对和数据文件路径。以下是部分配置示例:
配置名称: afr-eng
- 数据文件:
- 训练集: afr-eng/train-*
- 测试集: afr-eng/test-*
- 评估集: afr-eng/eval-*
- 特征:
- afr: 字符串
- eng: 字符串
- score: 浮点数
- index_level_0: 整数
- 数据集大小:
- 训练集: 2660个样本,793530字节
- 测试集: 570个样本,171644字节
- 评估集: 571个样本,172132字节
- 下载大小: 757198字节
- 数据集总大小: 1137306字节
配置名称: afr-nbl
- 数据文件:
- 训练集: afr-nbl/train-*
- 测试集: afr-nbl/test-*
- 评估集: afr-nbl/eval-*
- 特征:
- afr: 字符串
- nbl: 字符串
- score: 浮点数
- index_level_0: 整数
- 数据集大小:
- 训练集: 723个样本,281328字节
- 测试集: 155个样本,57947字节
- 评估集: 155个样本,59996字节
- 下载大小: 279950字节
- 数据集总大小: 399271字节
配置名称: afr-nso
- 数据文件:
- 训练集: afr-nso/train-*
- 测试集: afr-nso/test-*
- 评估集: afr-nso/eval-*
- 特征:
- afr: 字符串
- nso: 字符串
- score: 浮点数
- index_level_0: 整数
- 数据集大小:
- 训练集: 2937个样本,980475字节
- 测试集: 630个样本,203451字节
- 评估集: 630个样本,214623字节
- 下载大小: 892392字节
- 数据集总大小: 1398549字节
总结
The Vukuzenzele South African Multilingual Corpus是一个包含多种南非语言的多语言数据集,适用于句子相似度和翻译任务。数据集提供了详细的配置信息,包括不同语言对的数据文件路径、特征和数据集大小。



