five

uvci/koumankan4dyula

收藏
Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/uvci/koumankan4dyula
下载链接
链接失效反馈
官方服务:
资源简介:
Koumankan4Dyula语料库包含约15小时的Dioula语言音频及其对应的文本和翻译成法语和英语的文本。Dioula是一种低资源语言,在西非多个国家有超过1640万人使用。该数据集是Koumankan项目的一部分,旨在扩展CommonVoice数据集以包括Dyula语言和其他非洲语言。数据集将作为训练自动语音翻译、自动语音识别或机器翻译模型的基准。

Koumankan4Dyula语料库包含约15小时的Dioula语言音频及其对应的文本和翻译成法语和英语的文本。Dioula是一种低资源语言,在西非多个国家有超过1640万人使用。该数据集是Koumankan项目的一部分,旨在扩展CommonVoice数据集以包括Dyula语言和其他非洲语言。数据集将作为训练自动语音翻译、自动语音识别或机器翻译模型的基准。
提供机构:
uvci
原始信息汇总

数据集概述

数据集名称

  • Koumankan4Dyula: A Speech-To-Text Translation Corpus For Dyula Language

数据集内容

  • 包含约15小时(10,929条录音)的Dioula语言音频及其对应的法语和英语文本翻译。
  • Dioula是一种在西非多个国家有超过16.4百万人口使用的低资源语言。

数据集用途

  • 作为训练自动语音翻译模型的基准。
  • 用于自动语音识别或从Dioula到法语和英语的机器翻译模型。

数据集结构

特征

  • dyu_id: 字符串
  • fr_id: 字符串
  • dyu: 字符串
  • fr: 字符串
  • en: 字符串
  • gender: 字符串
  • age_group: 整数
  • duration: 浮点数
  • sampling_rate: 整数
  • country: 字符串
  • commonvoice_split: 字符串
  • audio: 音频特征,采样率为44100

数据分割

  • 训练集: 8065条记录,占比73%,约8小时9分钟
  • 验证集: 1471条记录,占比14%,约1小时36分钟
  • 测试集: 1393条记录,占比13%,约44分钟36秒

数据集大小

  • 下载大小: 4929377555字节
  • 数据集大小: 5855564733.864字节

许可证

  • CC-BY-SA-4.0

版本

  • 1.0.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作