galsenai/wolof-audio-data
收藏Hugging Face2024-12-25 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/galsenai/wolof-audio-data
下载链接
链接失效反馈官方服务:
资源简介:
Wolof Audio Dataset是一个包含沃洛夫语(Wolof)音频录音及其对应转录的数据集。该数据集旨在支持沃洛夫语的自动语音识别(ASR)模型的开发。数据集由四个现有数据集组合而成:ALFFA、FLEURS、Urban Bus Wolof Speech Dataset和Kallama Dataset。数据集包含音频文件和转录文本,音频文件的采样率为16 kHz。数据集分为训练集和测试集,分别包含28,807和6,268个样本。
The Wolof Audio Dataset is a collection of audio recordings and their corresponding transcriptions in Wolof. This dataset is designed to support the development of Automatic Speech Recognition (ASR) models for the Wolof language. It was created by combining three existing datasets: ALFFA, FLEURS, Urban Bus Wolof Speech Dataset, and Kallama Dataset. The dataset includes audio files with varying formats and a sampling rate of 16 kHz, along with their transcriptions and the source of each example. The dataset is divided into training and test splits, with a total of 24,346 examples.
提供机构:
galsenai
搜集汇总
数据集介绍

构建方式
沃洛夫语(Wolof)作为西非广泛使用的语言,在语音技术领域长期面临数据资源匮乏的困境。为突破这一瓶颈,研究者整合了ALFFA、FLEURS、Urban Bus Wolof Speech Dataset与Kallama Dataset四个现有语料库,构建了galsenai/wolof-audio-data数据集。该数据集通过统一采样率至16kHz、标准化文本转录格式,并保留每条数据的来源标签(如'alffa'、'fleurs'等),实现了多源异构数据的有机融合。最终形成包含35,075条样本的集合,其中训练集28,807条、测试集6,268条,覆盖通用语音与城市交通领域。
特点
该数据集的核心优势在于其跨领域覆盖与结构化设计。音频特征以16kHz采样率存储,适配主流ASR模型输入需求;文本转录精准对应沃洛夫语口语表达,并附带来源标注,便于研究者分析不同语料库的领域偏差。数据规模突破万级(10K-100K),在沃洛夫语资源中属罕见,为端到端语音识别、多任务学习等方向提供了可靠基准。此外,Apache-2.0开源许可降低了学术与工业界的应用门槛。
使用方法
通过Hugging Face Datasets库可一键加载,代码简洁高效。用户调用`load_dataset("galsenai/wolof-audio-data")`后,数据集自动划分为训练与测试子集。每条样本包含音频数组(array)、采样率(sampling_rate)、文本转录(sentence)及数据来源(source)四个字段。开发者可直接将音频数组与转录文本配对,用于训练CTC或Seq2Seq架构的ASR模型;来源标签则支持进行领域适应性分析或数据加权采样,以优化模型在特定场景下的表现。
背景与挑战
背景概述
沃洛夫语(Wolof)作为西非地区重要的跨民族交际语言,在塞内加尔、冈比亚等地拥有超过千万的使用者,然而其语音资源长期处于匮乏状态,严重制约了自动语音识别(ASR)技术在该语言上的发展。在此背景下,由GalsenAI团队于2023年主导构建的galsenai/wolof-audio-data数据集应运而生。该数据集通过整合ALFFA、FLEURS、Urban Bus Wolof Speech Dataset及Kallama Dataset四个现有语料库,形成了包含约2.8万条训练样本和6千余条测试样本的语音-文本平行语料,采样率统一为16kHz。这一开创性工作不仅填补了沃洛夫语公开语音数据集的空白,更通过多源数据融合策略显著提升了语料的领域多样性,为低资源语言语音识别研究提供了重要基准,推动了西非本土语言数字化进程。
当前挑战
该数据集面临的核心挑战首先源于沃洛夫语作为低资源语言的固有困境:缺乏大规模标注语料导致模型泛化能力受限,而多源数据融合虽扩大了规模却引入了领域偏差——例如ALFFA的朗读式语音与Urban Bus的嘈杂环境录音在声学特征上差异显著,可能影响模型在不同场景下的鲁棒性。此外,构建过程中面临的技术挑战不容忽视:四个原始数据集在采样率、编码格式及转录规范上存在异质性,需进行繁重的标准化处理;部分数据来源(如Kallama TTS)的合成语音与自然语音的声学差异可能引入噪声;而沃洛夫语特有的音调系统和拼写变体(如法语借词的不同转写方式)进一步增加了转录对齐难度,这些因素共同制约着数据集作为训练资源的可靠性。
常用场景
经典使用场景
在低资源语言语音识别领域,Wolof音频数据集作为西非语言沃洛夫语的首个大规模公开语音库,为自动语音识别(ASR)模型的训练与评估提供了核心基准。该数据集整合了ALFFA、FLEURS、城市公交语音及Kallama四个子集的音频与文本对齐数据,覆盖日常会话与特定交通场景,采样率统一为16 kHz,包含近3.5万条训练与测试样本,尤其适合构建端到端语音识别流水线,推动非洲语言在人工智能时代的数字化进程。
实际应用
在实际部署中,该数据集赋能沃洛夫语智能语音助手、实时语音翻译系统及教育领域的口语评测工具,尤其在城市公交场景下,基于Urban Bus子集的语音数据可优化西非地区交通调度系统的语音交互体验。此外,它支持手机端离线ASR模型开发,帮助非文字社区跨越数字鸿沟,实现医疗咨询、农业信息查询等民生服务的语音化接入。
衍生相关工作
基于该数据集,研究者已衍生出Wolof-Whisper微调模型、跨语言音素对齐工具及多方言语音识别基准测试。其多源标注结构催生了噪声鲁棒性对比研究,如对比城市环境与安静录音的ASR性能差异,并启发了针对非洲语言的语音数据增强方法,例如结合TTS合成数据扩充训练集,相关成果已发表于Interspeech及AfricaNLP研讨会。
以上内容由遇见数据集搜集并总结生成



