uvci/koumankan4dyula
收藏Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/uvci/koumankan4dyula
下载链接
链接失效反馈官方服务:
资源简介:
Koumankan4Dyula语料库包含约15小时的Dioula语言音频及其对应的文本和翻译成法语和英语的文本。Dioula是一种低资源语言,在西非多个国家有超过1640万人使用。该数据集是Koumankan项目的一部分,旨在扩展CommonVoice数据集以包括Dyula语言和其他非洲语言。数据集将作为训练自动语音翻译、自动语音识别或机器翻译模型的基准。
Koumankan4Dyula语料库包含约15小时的Dioula语言音频及其对应的文本和翻译成法语和英语的文本。Dioula是一种低资源语言,在西非多个国家有超过1640万人使用。该数据集是Koumankan项目的一部分,旨在扩展CommonVoice数据集以包括Dyula语言和其他非洲语言。数据集将作为训练自动语音翻译、自动语音识别或机器翻译模型的基准。
提供机构:
uvci
原始信息汇总
数据集概述
数据集名称
- Koumankan4Dyula: A Speech-To-Text Translation Corpus For Dyula Language
数据集内容
- 包含约15小时(10,929条录音)的Dioula语言音频及其对应的法语和英语文本翻译。
- Dioula是一种在西非多个国家有超过16.4百万人口使用的低资源语言。
数据集用途
- 作为训练自动语音翻译模型的基准。
- 用于自动语音识别或从Dioula到法语和英语的机器翻译模型。
数据集结构
特征
- dyu_id: 字符串
- fr_id: 字符串
- dyu: 字符串
- fr: 字符串
- en: 字符串
- gender: 字符串
- age_group: 整数
- duration: 浮点数
- sampling_rate: 整数
- country: 字符串
- commonvoice_split: 字符串
- audio: 音频特征,采样率为44100
数据分割
- 训练集: 8065条记录,占比73%,约8小时9分钟
- 验证集: 1471条记录,占比14%,约1小时36分钟
- 测试集: 1393条记录,占比13%,约44分钟36秒
数据集大小
- 下载大小: 4929377555字节
- 数据集大小: 5855564733.864字节
许可证
- CC-BY-SA-4.0
版本
- 1.0.0



