five

dsfsi/vukuzenzele-sentence-aligned

收藏
Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/vukuzenzele-sentence-aligned
下载链接
链接失效反馈
官方服务:
资源简介:
Vukuzenzele南非多语言语料库是一个支持多种语言的数据集,包括英语、南非荷兰语以及多种南非本土语言。该数据集设计用于句子相似性和翻译任务。数据集被结构化为多种配置,每种配置对应一对语言,数据文件分为训练集、测试集和评估集。每个配置的详细信息包括特征、数据分割和大小。

Vukuzenzele南非多语言语料库是一个支持多种语言的数据集,包括英语、南非荷兰语以及多种南非本土语言。该数据集设计用于句子相似性和翻译任务。数据集被结构化为多种配置,每种配置对应一对语言,数据文件分为训练集、测试集和评估集。每个配置的详细信息包括特征、数据分割和大小。
提供机构:
dsfsi
原始信息汇总

数据集概述

基本信息

  • 名称: The Vukuzenzele South African Multilingual Corpus
  • 语言: 包含英语(eng)和多种南非当地语言(afr, afr, nbl, xho, zul, sot, nso, tsn, ssw, ven, tso)
  • 许可证: CC-BY-4.0
  • 任务类别: 句子相似度、翻译
  • 标签: 多语言、政府
  • 相关论文: arXiv:2303.0375

数据配置

数据集包含多个配置,每个配置对应不同的语言对和数据文件路径。以下是部分配置示例:

配置名称: afr-eng

  • 数据文件:
    • 训练集: afr-eng/train-*
    • 测试集: afr-eng/test-*
    • 评估集: afr-eng/eval-*
  • 特征:
    • afr: 字符串
    • eng: 字符串
    • score: 浮点数
    • index_level_0: 整数
  • 数据集大小:
    • 训练集: 2660个样本,793530字节
    • 测试集: 570个样本,171644字节
    • 评估集: 571个样本,172132字节
    • 下载大小: 757198字节
    • 数据集总大小: 1137306字节

配置名称: afr-nbl

  • 数据文件:
    • 训练集: afr-nbl/train-*
    • 测试集: afr-nbl/test-*
    • 评估集: afr-nbl/eval-*
  • 特征:
    • afr: 字符串
    • nbl: 字符串
    • score: 浮点数
    • index_level_0: 整数
  • 数据集大小:
    • 训练集: 723个样本,281328字节
    • 测试集: 155个样本,57947字节
    • 评估集: 155个样本,59996字节
    • 下载大小: 279950字节
    • 数据集总大小: 399271字节

配置名称: afr-nso

  • 数据文件:
    • 训练集: afr-nso/train-*
    • 测试集: afr-nso/test-*
    • 评估集: afr-nso/eval-*
  • 特征:
    • afr: 字符串
    • nso: 字符串
    • score: 浮点数
    • index_level_0: 整数
  • 数据集大小:
    • 训练集: 2937个样本,980475字节
    • 测试集: 630个样本,203451字节
    • 评估集: 630个样本,214623字节
    • 下载大小: 892392字节
    • 数据集总大小: 1398549字节

总结

The Vukuzenzele South African Multilingual Corpus是一个包含多种南非语言的多语言数据集,适用于句子相似度和翻译任务。数据集提供了详细的配置信息,包括不同语言对的数据文件路径、特征和数据集大小。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作