galsenai/waxal_dataset
收藏Hugging Face2024-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/galsenai/waxal_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于关键词检测任务,旨在扩展非洲语言的语音命令数据集,特别是塞内加尔的四种语言:沃洛夫语、普拉尔语、塞雷尔语和迪奥拉语。这些语言被认为是第一代语言,具有书写系统,并被塞内加尔政府视为国家语言。数据集包含音频文件、标签、翻译和语言ID等特征,适用于语音助手等应用场景。
提供机构:
galsenai
原始信息汇总
数据集概述
数据集特征
- audio: 音频文件,数据类型为音频。
- label: 音频文件的标签,数据类型为分类标签,包含124个类别,每个类别对应一个唯一的名称。
- translation: 关键词的法语翻译,数据类型为字符串。
- locale_id: 语言ID,数据类型为整数。
- transcript: 音频的文本转录,数据类型为字符串。
数据集结构
- train: 训练集,包含26387个样本,总大小为567773923.639字节,下载大小为546144081字节。
数据集用途
该数据集用于关键字检测任务,旨在扩展包含非洲语言的Speech commands数据集,特别关注塞内加尔的四种语言:Wolof, Pulaar, Serer, Diola。
语言ID
- Wolof:
7 - Pulaar:
5 - Serer:
6 - Diola:
3



