five

galsenai/waxal_dataset

收藏
Hugging Face2024-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/galsenai/waxal_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集专注于关键词检测任务,旨在扩展非洲语言的语音命令数据集,特别是塞内加尔的四种语言:沃洛夫语、普拉尔语、塞雷尔语和迪奥拉语。这些语言被认为是第一代语言,具有书写系统,并被塞内加尔政府视为国家语言。数据集包含音频文件、标签、翻译和语言ID等特征,适用于语音助手等应用场景。
提供机构:
galsenai
原始信息汇总

数据集概述

数据集特征

  • audio: 音频文件,数据类型为音频。
  • label: 音频文件的标签,数据类型为分类标签,包含124个类别,每个类别对应一个唯一的名称。
  • translation: 关键词的法语翻译,数据类型为字符串。
  • locale_id: 语言ID,数据类型为整数。
  • transcript: 音频的文本转录,数据类型为字符串。

数据集结构

  • train: 训练集,包含26387个样本,总大小为567773923.639字节,下载大小为546144081字节。

数据集用途

该数据集用于关键字检测任务,旨在扩展包含非洲语言的Speech commands数据集,特别关注塞内加尔的四种语言:Wolof, Pulaar, Serer, Diola。

语言ID

  • Wolof: 7
  • Pulaar: 5
  • Serer: 6
  • Diola: 3
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作