five

wecover/OPUS_GlobalVoices

收藏
Hugging Face2024-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wecover/OPUS_GlobalVoices
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的数据文件,每种语言的数据文件分为训练集(train)、验证集(valid)和测试集(test)。数据文件以Parquet格式存储,路径中包含了语言代码,表明数据集可能用于多语言文本处理或机器翻译任务。

This dataset contains data files for multiple languages, with each languages data files divided into training (train), validation (valid), and test (test) sets. The data files are stored in Parquet format, and the paths include language codes, suggesting that the dataset may be used for multilingual text processing or machine translation tasks.
提供机构:
wecover
原始信息汇总

数据集配置

该数据集包含多个语言配置,每个配置包含训练集、验证集和测试集的Parquet文件路径。以下是各语言配置及其对应的数据文件路径:

  • 默认配置 (default)

    • 训练集: */*/train.parquet
    • 验证集: */*/valid.parquet
    • 测试集: */*/test.parquet
  • 阿姆哈拉语 (am)

    • 训练集: */*am*/train.parquet
    • 验证集: */*am*/valid.parquet
    • 测试集: */*am*/test.parquet
  • 阿拉伯语 (ar)

    • 训练集: */*ar*/train.parquet
    • 验证集: */*ar*/valid.parquet
    • 测试集: */*ar*/test.parquet
  • 孟加拉语 (bn)

    • 训练集: */*bn*/train.parquet
    • 验证集: */*bn*/valid.parquet
    • 测试集: */*bn*/test.parquet
  • 加泰罗尼亚语 (ca)

    • 训练集: */*ca*/train.parquet
    • 验证集: */*ca*/valid.parquet
    • 测试集: */*ca*/test.parquet
  • 德语 (de)

    • 训练集: */*de*/train.parquet
    • 验证集: */*de*/valid.parquet
    • 测试集: */*de*/test.parquet
  • 希腊语 (el)

    • 训练集: */*el*/train.parquet
    • 验证集: */*el*/valid.parquet
    • 测试集: */*el*/test.parquet
  • 英语 (en)

    • 训练集: */*en*/train.parquet
    • 验证集: */*en*/valid.parquet
    • 测试集: */*en*/test.parquet
  • 西班牙语 (es)

    • 训练集: */*es*/train.parquet
    • 验证集: */*es*/valid.parquet
    • 测试集: */*es*/test.parquet
  • 波斯语 (fa)

    • 训练集: */*fa*/train.parquet
    • 验证集: */*fa*/valid.parquet
    • 测试集: */*fa*/test.parquet
  • 法语 (fr)

    • 训练集: */*fr*/train.parquet
    • 验证集: */*fr*/valid.parquet
    • 测试集: */*fr*/test.parquet
  • 印地语 (hi)

    • 训练集: */*hi*/train.parquet
    • 验证集: */*hi*/valid.parquet
    • 测试集: */*hi*/test.parquet
  • 匈牙利语 (hu)

    • 训练集: */*hu*/train.parquet
    • 验证集: */*hu*/valid.parquet
    • 测试集: */*hu*/test.parquet
  • 印度尼西亚语 (id)

    • 训练集: */*id*/train.parquet
    • 验证集: */*id*/valid.parquet
    • 测试集: */*id*/test.parquet
  • 意大利语 (it)

    • 训练集: */*it*/train.parquet
    • 验证集: */*it*/valid.parquet
    • 测试集: */*it*/test.parquet
  • 马尔加什语 (mg)

    • 训练集: */*mg*/train.parquet
    • 验证集: */*mg*/valid.parquet
    • 测试集: */*mg*/test.parquet
  • 马其顿语 (mk)

    • 训练集: */*mk*/train.parquet
    • 验证集: */*mk*/valid.parquet
    • 测试集: */*mk*/test.parquet
  • 缅甸语 (my)

    • 训练集: */*my*/train.parquet
    • 验证集: */*my*/valid.parquet
    • 测试集: */*my*/test.parquet
  • 荷兰语 (nl)

    • 训练集: */*nl*/train.parquet
    • 验证集: */*nl*/valid.parquet
    • 测试集: */*nl*/test.parquet
  • 波兰语 (pl)

    • 训练集: */*pl*/train.parquet
    • 验证集: */*pl*/valid.parquet
    • 测试集: */*pl*/test.parquet
  • 葡萄牙语 (pt)

    • 训练集: */*pt*/train.parquet
    • 验证集: */*pt*/valid.parquet
    • 测试集: */*pt*/test.parquet
  • 俄语 (ru)

    • 训练集: */*ru*/train.parquet
    • 验证集: */*ru*/valid.parquet
    • 测试集: */*ru*/test.parquet
  • 塞尔维亚语 (sr)

    • 训练集: */*sr*/train.parquet
    • 验证集: */*sr*/valid.parquet
    • 测试集: */*sr*/test.parquet
  • 斯瓦希里语 (sw)

    • 训练集: */*sw*/train.parquet
    • 验证集: */*sw*/valid.parquet
    • 测试集: */*sw*/test.parquet
  • 土耳其语 (tr)

    • 训练集: */*tr*/train.parquet
    • 验证集: */*tr*/valid.parquet
    • 测试集: */*tr*/test.parquet
  • 乌尔都语 (ur)

    • 训练集: */*ur*/train.parquet
    • 验证集: */*ur*/valid.parquet
    • 测试集: */*ur*/test.parquet
  • 简体中文 (zhs)

    • 训练集: */*zhs*/train.parquet
    • 验证集: */*zhs*/valid.parquet
    • 测试集: */*zhs*/test.parquet
  • 繁体中文 (zht)

    • 训练集: */*zht*/train.parquet
    • 验证集: */*zht*/valid.parquet
    • 测试集: */*zht*/test.parquet
  • 保加利亚语 (bg)

    • 训练集: */*bg*/train.parquet
    • 验证集: */*bg*/valid.parquet
    • 测试集: */*bg*/test.parquet
  • 捷克语 (cs)

    • 训练集: */*cs*/train.parquet
    • 验证集: */*cs*/valid.parquet
    • 测试集: */*cs*/test.parquet
  • 丹麦语 (da)

    • 训练集: */*da*/train.parquet
    • 验证集: */*da*/valid.parquet
    • 测试集: */*da*/test.parquet
  • 世界语 (eo)

    • 训练集: */*eo*/train.parquet
    • 验证集: */*eo*/valid.parquet
    • 测试集: */*eo*/test.parquet
  • 希伯来语 (he)

    • 训练集: */*he*/train.parquet
    • 验证集: */*he*/valid.parquet
    • 测试集: */*he*/test.parquet
  • 高棉语 (km)

    • 训练集: */*km*/train.parquet
    • 验证集: */*km*/valid.parquet
    • 测试集: */*km*/test.parquet
  • 韩语 (ko)

    • 训练集: */*ko*/train.parquet
    • 验证集: */*ko*/valid.parquet
    • 测试集: */*ko*/test.parquet
  • 库尔德语 (ku)

    • 训练集: */*ku*/train.parquet
    • 验证集: */*ku*/valid.parquet
    • 测试集: */*ku*/test.parquet
  • 尼泊尔语 (ne)

    • 训练集: */*ne*/train.parquet
    • 验证集: */*ne*/valid.parquet
    • 测试集: */*ne*/test.parquet
  • 奥里亚语 (or)

    • 训练集: */*or*/train.parquet
    • 验证集: */*or*/valid.parquet
    • 测试集: */*or*/test.parquet
  • 旁遮普语 (pa)

    • 训练集: */*pa*/train.parquet
    • 验证集: */*pa*/valid.parquet
    • 测试集: */*pa*/test.parquet
  • 罗马尼亚语 (ro)

    • 训练集: */*ro*/train.parquet
    • 验证集: */*ro*/valid.parquet
    • 测试集: */*ro*/test.parquet
  • 阿尔巴尼亚语 (sq)

    • 训练集: */*sq*/train.parquet
    • 验证集: */*sq*/valid.parquet
    • 测试集: */*sq*/test.parquet
  • 瑞典语 (sv)

    • 训练集: */*sv*/train.parquet
    • 验证集: */*sv*/valid.parquet
    • 测试集: */*sv*/test.parquet
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作