AfriVoices-KE

Name: AfriVoices-KE
Creator: 马塞诺大学; 美国国际大学; 德丹·基马蒂科技大学; 卡巴拉大学; 贾拉莫吉·奥金加·奥丁加科技大学; 鲁汶大学; 科技创新者网络
Published: 2026-04-10 00:45:01
License: 暂无描述

arXiv2026-04-10 更新2026-04-11 收录

下载链接：

https://arxiv.org/abs/2604.08448

下载链接

链接失效反馈

官方服务：

资源简介：

AfriVoices-KE是一个大规模的多语言语音数据集，包含约3000小时的音频，涵盖五种肯尼亚语言：Dholuo、Kikuyu、Kalenjin、Maasai和Somali。数据集由马塞诺大学等多家机构合作创建，包含750小时的脚本语音和2250小时的自发语音，收集自4777名母语者。数据来源包括编译的文本语料库、翻译和特定领域生成的句子，覆盖农业、金融、医疗等11个领域。数据集通过定制移动应用收集，经过多层质量保证，旨在解决非洲语言在语音技术中的代表性不足问题，推动自动语音识别和文本转语音系统的开发，同时促进肯尼亚语言遗产的数字化保存。

AfriVoices-KE is a large-scale multilingual speech dataset containing approximately 3,000 hours of audio spanning five Kenyan languages: Dholuo, Kikuyu, Kalenjin, Maasai, and Somali. Developed in collaboration with multiple institutions including Maseno University, the dataset consists of 750 hours of scripted speech and 2,250 hours of spontaneous speech, collected from 4,777 native speakers. Its data sources include compiled text corpora, translated and domain-specific generated sentences, covering 11 domains such as agriculture, finance, and healthcare. The dataset was collected via a custom mobile application and underwent multi-layered quality assurance. It aims to address the underrepresentation of African languages in speech technology, advance the development of automatic speech recognition and text-to-speech systems, and facilitate the digital preservation of Kenya's linguistic heritage.

提供机构：

马塞诺大学; 美国国际大学; 德丹·基马蒂科技大学; 卡巴拉大学; 贾拉莫吉·奥金加·奥丁加科技大学; 鲁汶大学; 科技创新者网络

创建时间：

2026-04-10

原始信息汇总

AfriVoices-KE: 一个用于肯尼亚语言的多语言语音数据集

数据集基本信息

标题: AfriVoices-KE: A Multilingual Speech Dataset for Kenyan Languages
arXiv标识符: arXiv:2604.08448
提交日期: 2026年4月9日
领域: 计算机科学 > 计算与语言 (cs.CL)
论文页数: 10页
论文内容: 包含5张图和3个表格

数据集概述

AfriVoices-KE 是一个大规模多语言语音数据集，旨在解决非洲语言在语音技术中代表性严重不足的问题，为开发包容性的自动语音识别和文本转语音系统提供基础资源，并推进肯尼亚语言遗产的数字化保存。

数据集内容与规模

总时长: 约3,000小时音频。
涵盖语言: 5种肯尼亚语言：Dholuo、Kikuyu、Kalenjin、Maasai 和 Somali。
语音类型:
- 脚本化语音: 750小时。
- 自发语音: 2,250小时。
发音人: 来自不同地区和人口统计背景的4,777名母语者。

数据收集方法

双方法采集:
1. 脚本化录音: 基于编译的文本语料库、翻译以及涵盖11个与肯尼亚背景相关领域的特定领域生成句子。
2. 非脚本化语音: 通过文本和图像提示引发，以捕捉自然的语言变异和方言细微差别。
收集工具: 使用定制的移动应用程序，供贡献者通过智能手机录制。

质量保证

多层质量控制，包括：
- 录音前的自动信噪比验证。
- 内容准确性的人工审查。

面临的挑战与缓解措施

挑战: 资源匮乏环境中常见的挑战，包括不可靠的基础设施、设备兼容性问题以及社区信任障碍。
缓解措施: 通过本地动员者、利益相关者合作伙伴关系和适应性培训协议来缓解。

相关链接

论文PDF: https://arxiv.org/pdf/2604.08448
论文HTML (实验性): https://arxiv.org/html/2604.08448
DOI: https://doi.org/10.48550/arXiv.2604.08448
BibTeX引用: 可通过页面工具获取。

搜集汇总

数据集介绍

构建方式

在语音技术领域，非洲语言长期面临数据稀缺的挑战。AfriVoices-KE数据集的构建采用了一种双模态采集策略，旨在平衡规模与生态效度。项目通过定制化的开源移动应用程序，在肯尼亚境内广泛招募了4,777名母语者参与数据贡献。脚本语音部分依托于预先编译的文本语料库，涵盖农业、医疗、教育等十一个与当地语境紧密相关的领域；非脚本语音则通过文本与图像提示激发参与者的自发表达，以捕捉真实的语言变异和方言细微差别。整个采集过程融合了自动化信号质量检测与多层次人工审核，确保了数据的高信噪比与内容准确性。

特点

该数据集的核心特征体现在其规模、多样性与方法论严谨性的有机结合上。总量约3,000小时的音频覆盖了肯尼亚五种主要语言，包括Dholuo、Kikuyu、Kalenjin、Maasai和Somali，并细致地平衡了脚本语音与非脚本语音的比例。数据在人口统计学维度上具有广泛的代表性，涵盖了不同年龄、性别、教育背景及地域的说话者，并明确标注了方言变体。尤为突出的是，数据集深入编码了自然言语中的语码转换、不流利现象及语境丰富的表达，为开发包容性语音技术提供了宝贵的真实世界语言样本。

使用方法

AfriVoices-KE数据集为低资源语言的语音技术研究提供了基础性资源。研究者可通过Hugging Face平台获取该数据集，其遵循CC BY 4.0许可协议，并提供了标准的机器学习数据划分。该资源主要用于训练和评估自动语音识别系统，尤其适用于跨语言迁移学习与多语言模型开发。数据集附带的详细元数据，如语言、方言、领域和说话者信息，支持研究者进行分层分析与针对性建模。在使用中，需严格遵守数据卡中声明的伦理准则，禁止将其用于监控、歧视或剥削性目的。

背景与挑战

背景概述

AfriVoices-KE数据集诞生于2026年，由肯尼亚马塞诺大学联合多所高校及技术机构共同创建，旨在应对非洲本土语言在语音技术领域严重缺乏代表性数据的关键问题。该数据集聚焦于肯尼亚五种主要语言——Dholuo、Kikuyu、Kalenjin、Maasai和Somali，涵盖了约3000小时的音频资源，其中包含脚本化语音与自然自发语音的平衡组合。其核心研究目标在于为低资源语言构建高质量、多领域的语音语料库，以推动包容性自动语音识别和文本转语音系统的开发，同时促进肯尼亚语言文化遗产的数字化保存。这一资源的建立，有效弥补了现有语音数据集中非洲语言覆盖不足的空白，为相关领域的算法模型训练与评估提供了不可或缺的基础设施。

当前挑战

该数据集致力于解决低资源非洲语言自动语音识别系统开发所面临的核心挑战，即缺乏大规模、高质量、领域多样的语音数据，这直接制约了语音技术在教育、医疗、农业等关键服务场景中的普惠应用。在构建过程中，项目团队遭遇了多重现实困难：技术层面需克服移动应用在老旧设备上的兼容性问题、不稳定网络环境下的数据上传障碍，以及多变录音环境导致的音频质量参差；社会层面则涉及在偏远社区建立信任、招募符合人口统计学平衡的参与者，并确保文化敏感性与伦理合规性。此外，自然语音中普遍存在的代码转换、方言变体及不流利现象，对转录的准确性与一致性提出了极高要求。

常用场景

经典使用场景

在语音技术研究领域，AfriVoices-KE数据集为低资源肯尼亚语言提供了大规模、多语言的语音资源，其经典使用场景聚焦于训练和评估自动语音识别系统。该数据集涵盖了Dholuo、Kikuyu、Kalenjin、Maasai和Somali五种语言，包含脚本化与自发语音的混合，尤其强调农业、医疗、金融等与当地语境紧密相关的领域。研究人员利用这一资源，能够开发出更具包容性和适应性的语音模型，有效捕捉方言变异和自然语言现象，从而推动针对非洲语言的语音技术前沿探索。

解决学术问题

该数据集直接应对了非洲语言在语音数据中代表性不足的核心学术挑战，为低资源语言研究提供了关键基础设施。它解决了语音技术领域长期存在的语言偏见问题，通过提供高质量、多方言的语音样本，支持跨语言迁移学习、方言识别以及代码转换分析等研究方向。其意义在于促进了语言技术的民主化，使得以往被边缘化的语言社区得以融入数字生态系统，同时为语言保存和计算语言学理论提供了实证基础，推动了全球语言多样性在人工智能时代的均衡发展。

衍生相关工作

AfriVoices-KE的发布催生了一系列相关研究与实践，包括针对特定肯尼亚语言的语音模型优化、低资源环境下的多任务学习框架，以及跨非洲语言的语音技术基准测试。该数据集常被引用于与NaijaVoices、BembaSpeech等非洲语音资源的比较研究中，共同构成了非洲语言语音计算生态的重要组成部分。此外，其数据收集方法论——如移动应用众包、多层级质量保证及社区参与策略——也为后续低资源语言数据项目提供了可复制的范例，激励了更多针对本土化、伦理化数据工作的学术探讨。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集