Mozilla Common Voice, FLEURS, BDU-speech dataset
收藏arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0, https://huggingface.co/datasets/google/fleurs, https://figshare.com/articles/dataset/Yohannes_A_Ejigu_Amharic_ASR_Dataset_zip/24959727
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了用于自动语音识别的低资源语言Amharic的三个数据集:Mozilla Common Voice、FLEURS和BDU-speech dataset。Mozilla Common Voice是一个包含多种语言的语音语料库,FLEURS是一个针对低资源语言的语音数据集,BDU-speech dataset则是包含Amharic语言的噪声语音数据集。这些数据集为改善Amharic自动语音识别模型的性能提供了基础数据。
This paper introduces three datasets for low-resource Amharic automatic speech recognition: Mozilla Common Voice, FLEURS, and BDU-speech dataset. Mozilla Common Voice is a multilingual speech corpus, FLEURS is a speech dataset targeting low-resource languages, and BDU-speech dataset is a noisy speech dataset containing the Amharic language. These datasets provide foundational data for improving the performance of Amharic automatic speech recognition models.
提供机构:
Wollo University, Bahir Dar University, Universität Hamburg, Bayero University, Kano
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个公开可用的阿姆哈拉语语音语料库构建而成,主要包括Mozilla Common Voice、Google FLEURS以及BDU-speech dataset。Mozilla Common Voice采用社区驱动的众包模式收集多语言语音数据,包含31,175小时的录音,其中阿姆哈拉语子集经过严格的验证流程确保质量。FLEURS作为低资源语言基准测试集,提供了102种语言的平行语音数据,其阿姆哈拉语部分包含高质量的自然语音录音和文本转录。BDU-speech dataset则专门模拟真实环境中的噪声条件,收录了50名说话者的20,000句语音样本,涵盖方言变异和背景噪声。所有音频数据均经过16kHz重采样处理,确保与Whisper模型的输入要求兼容。
特点
该数据集最显著的特点是针对低资源语言阿姆哈拉语的深度优化。其语音样本覆盖了从标准发音到方言变体的广泛频谱,特别是BDU数据集包含的噪声环境录音为模型鲁棒性测试提供了独特资源。数据标注方面采用双重保障机制,既有自动校验又有人工审核,确保转录文本的准确性。多源数据的组合特性使该数据集兼具FLEURS的语言学规范性、Common Voice的说话者多样性以及BDU的现实场景适用性。特别值得注意的是数据集包含详细的元数据标注,如说话者年龄、性别和地域信息,这为研究语音识别中的偏差问题提供了重要维度。
使用方法
使用该数据集时建议采用分阶段训练策略。首先利用FLEURS数据进行基础微调,再逐步引入Common Voice和BDU数据以增强模型泛化能力。数据处理流程需包含音频重采样、特征提取和文本标记化等标准步骤,推荐使用Whisper原生的特征提取器保持兼容性。评估时应特别注意阿姆哈拉语特有的同音异形字现象,建议实施音位标准化处理以获得更准确的WER和BLEU评分。对于实际应用场景,可结合Gradio等工具构建交互式测试接口,并通过命名实体识别等后处理模块进一步提升转录质量。数据集的三个子集可分别用于模型开发、验证和噪声环境测试,形成完整的评估体系。
背景与挑战
背景概述
Mozilla Common Voice、FLEURS和BDU-speech dataset是近年来为支持低资源语言自动语音识别(ASR)研究而构建的重要数据集。Mozilla Common Voice由Mozilla基金会主导,是一个多语言、社区驱动的开源语音语料库,旨在通过众包方式收集多样化的语音数据。FLEURS由Google Research发布,专注于少样本学习的多语言语音表示评估,覆盖102种语言。BDU-speech dataset则由巴希尔达尔大学的研究团队开发,专注于阿姆哈拉语在噪声环境下的语音识别挑战。这些数据集的创建填补了阿姆哈拉语等低资源语言在语音数据上的空白,为语音技术的公平性和包容性发展提供了重要支持。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。在领域问题方面,低资源语言的语音识别存在数据稀疏性、方言多样性和复杂语言结构等固有难题,导致模型泛化能力不足。例如,阿姆哈拉语中的同音异形字符对转录准确性造成显著干扰。在构建过程中,数据收集面临参与者数量有限、录音环境不可控(如BDU数据集的背景噪声)等问题。此外,语音数据的标注需要语言学专家参与,成本高昂且易引入主观偏差。多语言数据集的平衡性也是核心挑战,如何避免高资源语言数据淹没低资源语言特征需要精心设计。
常用场景
经典使用场景
在低资源语言自动语音识别(ASR)研究中,Mozilla Common Voice、FLEURS和BDU-speech数据集被广泛用于模型微调和性能评估。这些数据集通过提供多样化的语音样本和高质量的转录文本,为研究者提供了一个可靠的基准。特别是在Amharic等低资源语言中,这些数据集帮助克服了数据稀缺的挑战,使得模型能够在真实场景中表现更优。
实际应用
在实际应用中,这些数据集支持的ASR技术已广泛应用于医疗记录转录、语音驱动的客户服务工具、语言学习辅助系统以及文化遗产保护中的口述历史存档。特别是在Amharic等低资源语言环境中,这些技术极大地提升了语音到文本转换的准确性和效率,为当地社区提供了更好的技术支持。
衍生相关工作
基于这些数据集,研究者们衍生出了一系列经典工作,包括针对土耳其语的LoRA优化、哈萨克语的动态数据增强和模型量化,以及印地语的迁移学习框架。这些工作不仅扩展了Whisper模型的适用性,还为低资源语言ASR研究提供了新的技术路径和方法论。
以上内容由遇见数据集搜集并总结生成



