NaijaVoices

Name: NaijaVoices
Creator: Lanfrica, NaijaVoices, Mila - Quebec AI Institute, MLCollective, Ohio State University, INRIA, France, Alex Ekwueme Federal University Ndufu Alike Ikwo, Nigeria, Obafemi Awolowo University, Nigeria, Polytechnique Montreal, Canada, University of Montreal, Canada, McGill University, Canada, Canada CIFAR AI Chair
Published: 2025-05-27 06:53:48
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://naijavoices.com/

下载链接

链接失效反馈

官方服务：

资源简介：

NaijaVoices数据集是一个大规模、高质量、文化丰富的语音文本数据集，专为非洲语言而设计。该数据集由Lanfrica、NaijaVoices社区和Mila - 魁北克人工智能研究所等机构合作创建，旨在弥补非洲语言在语音技术中的数据不足问题。数据集包含超过1800小时的语音数据，来自5000多名演讲者，覆盖了伊博语、豪萨语和约鲁巴语等语言。数据集的创建过程采用了独特的“数据农业”方法，确保数据提供社区在数据收集过程中得到参与、赋权和互利。NaijaVoices数据集在自动语音识别方面进行了微调实验，平均实现了75.86%（Whisper）、52.06%（MMS）和42.33%（XLSR）的词错误率（WER）改进，展示了其在多语言语音处理方面的潜力。

The NaijaVoices dataset is a large-scale, high-quality, culturally rich speech-text dataset designed specifically for African languages. Co-created by institutions including Lanfrica, the NaijaVoices Community, and Mila – Quebec Artificial Intelligence Institute, this dataset aims to address the shortage of data for African languages in speech technology. It contains over 1,800 hours of speech data from more than 5,000 speakers, covering languages such as Igbo, Hausa, and Yoruba. The dataset was developed using a unique "data farming" approach, which ensures that the data-providing communities are engaged, empowered, and mutually beneficial throughout the data collection process. Fine-tuning experiments on automatic speech recognition (ASR) using the NaijaVoices dataset achieved average Word Error Rate (WER) improvements of 75.86% (Whisper), 52.06% (MMS), and 42.33% (XLSR), demonstrating its potential for multilingual speech processing.

提供机构：

Lanfrica, NaijaVoices, Mila - Quebec AI Institute, MLCollective, Ohio State University, INRIA, France, Alex Ekwueme Federal University Ndufu Alike Ikwo, Nigeria, Obafemi Awolowo University, Nigeria, Polytechnique Montreal, Canada, University of Montreal, Canada, McGill University, Canada, Canada CIFAR AI Chair

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

NaijaVoices数据集的构建采用了独特的“数据耕作”理念，强调与语言社区的互惠关系。通过组织语言专家（称为“句子生成者”）手动创作文化相关的句子，并结合100个主题提示，确保句子的多样性和文化真实性。随后，经过双重审核系统，生成的句子由“引导者”指导“语音捐赠者”通过专用录音应用进行录制，确保了高质量的语音数据。整个过程涵盖了超过5,000名来自尼日利亚各地区的语音捐赠者，最终形成了1,800小时的语音文本数据。

使用方法

NaijaVoices数据集适用于多种语音处理任务，如自动语音识别（ASR）和文本到语音合成（TTS）。用户可以通过访问其官方网站下载数据集，并根据需要选择特定语言或子集进行模型训练。实验表明，使用该数据集微调的模型在ASR任务中显著降低了词错误率（WER），尤其是在低资源语言中表现突出。数据集采用CC BY-NC-SA 4.0许可，确保了开放性和可访问性。

背景与挑战

背景概述

NaijaVoices数据集由Lanfrica、NaijaVoices社区及Mila等机构于2025年联合发布，旨在解决非洲语言在语音技术领域长期面临的数据匮乏问题。该数据集聚焦伊博语、豪萨语和约鲁巴语三种代表性语言，通过创新的'数据耕作'模式，汇集了来自5,000余名说话者的1,800小时高质量语音文本数据。其独特价值在于突破性地整合了文化原生性内容与声学多样性，填补了现有非洲语言数据在规模与质量上的双重空白，为提升语音识别、语音合成等技术的包容性发展提供了关键资源支撑。

当前挑战

该数据集构建面临双重挑战：在领域层面，需克服非洲语言在线文本稀缺且文化表征失衡的困境，传统网络爬取方法难以获取真实语境语料；在技术实施层面，需平衡规模化采集与质量控制的关系，既要规避集中式录音的低效性，又要解决分布式移动端录音中的发音准确性监督难题。通过设计'生成-审核'双阶段文本创建流程，以及'协调员-捐赠者'分层录音体系，最终实现了文化适配性语料的大规模标准化采集。

常用场景

经典使用场景

NaijaVoices数据集在语音技术领域具有广泛的应用前景，尤其在自动语音识别（ASR）任务中表现突出。该数据集通过包含大量多样化的语音样本，为研究人员提供了丰富的训练资源，特别是在低资源语言如伊博语、豪萨语和约鲁巴语中。其独特的数据收集方法确保了语音样本的高质量和多样性，使其成为跨语言语音处理研究的理想选择。

解决学术问题

NaijaVoices数据集解决了非洲语言在语音技术研究中长期存在的低资源问题。通过提供1800小时的语音数据和5000多名不同背景的说话者样本，该数据集显著提升了语音识别模型的性能。实验表明，使用该数据集微调的模型在词错误率（WER）上平均降低了75.86%（Whisper）、52.06%（MMS）和42.33%（XLSR），为非洲语言的语音处理研究提供了强有力的数据支持。

实际应用

在实际应用中，NaijaVoices数据集为语音助手、翻译工具和教育软件等提供了关键的语言资源。其多样化的语音样本覆盖了不同年龄、性别和教育背景的说话者，使得基于该数据集开发的语音技术能够更好地服务于非洲地区的用户。此外，该数据集的高质量音频样本也为语音合成和语音增强等应用提供了可靠的基础。

数据集最近研究