uvci/koumankan4dyula

Name: uvci/koumankan4dyula
Creator: uvci
Published: 2024-04-29 19:55:24
License: 暂无描述

Hugging Face2024-04-29 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/uvci/koumankan4dyula

下载链接

链接失效反馈

官方服务：

资源简介：

Koumankan4Dyula语料库包含约15小时的Dioula语言音频及其对应的文本和翻译成法语和英语的文本。Dioula是一种低资源语言，在西非多个国家有超过1640万人使用。该数据集是Koumankan项目的一部分，旨在扩展CommonVoice数据集以包括Dyula语言和其他非洲语言。数据集将作为训练自动语音翻译、自动语音识别或机器翻译模型的基准。

提供机构：

uvci

原始信息汇总

数据集概述

数据集名称

Koumankan4Dyula: A Speech-To-Text Translation Corpus For Dyula Language

数据集内容

包含约15小时（10,929条录音）的Dioula语言音频及其对应的法语和英语文本翻译。
Dioula是一种在西非多个国家有超过16.4百万人口使用的低资源语言。

数据集用途

作为训练自动语音翻译模型的基准。
用于自动语音识别或从Dioula到法语和英语的机器翻译模型。

数据集结构

特征

dyu_id: 字符串
fr_id: 字符串
dyu: 字符串
fr: 字符串
en: 字符串
gender: 字符串
age_group: 整数
duration: 浮点数
sampling_rate: 整数
country: 字符串
commonvoice_split: 字符串
audio: 音频特征，采样率为44100

数据分割

训练集: 8065条记录，占比73%，约8小时9分钟
验证集: 1471条记录，占比14%，约1小时36分钟
测试集: 1393条记录，占比13%，约44分钟36秒

数据集大小

下载大小: 4929377555字节
数据集大小: 5855564733.864字节

许可证

CC-BY-SA-4.0

版本

1.0.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集