Afrivoice_Swahili
收藏Hugging Face2025-09-18 更新2025-09-19 收录
下载链接:
https://huggingface.co/datasets/DigitalUmuganda/Afrivoice_Swahili
下载链接
链接失效反馈官方服务:
资源简介:
Afrivoice ASR Swahili数据集是一个用于自动语音识别的斯瓦希里语数据集,包含语音和相应的文字转录。数据涵盖不同年龄段和性别的说话者,以及在不同地理位置的录音。每个数据实例包括语音创建者的ID、图像和音频文件路径、转录文本、年龄组、性别、项目名称、地区、录音年份和时长等信息。数据集适用于教育、农业、金融服务、政府服务、健康服务等类别的图像提示的语音识别任务。
创建时间:
2025-09-18
原始信息汇总
Afrivoice ASR Swahili 数据集概述
基本信息
- 名称:Afrivoice ASR Swahili dataset
- 语言:斯瓦希里语(sw)
- 许可证:CC-BY-4.0
- 主要任务:自动语音识别(ASR)
- 标签:DigitalUmuganda、DU、rw、Swahili、asr、stt、voice、speech
数据集结构
数据实例
每个数据实例包含以下字段:
voice_creator_id(字符串):录音客户IDimage_filepath(字符串):分片内图像文件名image_category(字符串):图像领域(如健康、农业、金融)image_sub_category(字符串):图像子领域标签audio_filepath(字符串):分片内音频文件名transcription(字符串):带标点和大小写的原始音频转录raw_text(字符串):带标点和大小写的原始音频转录text(字符串):无标点和大小写的标准化音频转录age_group(字符串):录音者年龄范围gender(字符串):说话者性别project_name(字符串):项目名称project(字符串):项目名称locale(字符串):说话者区域设置year(整数):录音年份duration(整数):音频文件时长(秒)location(字符串):录音者地理位置shard_id(整数):音频文件所在分片索引image_shard_id(整数):图像文件所在分片索引
分类选项
数据集支持按以下类别加载:
- agriculture(农业)
- coast_region(沿海地区)
- common_images(通用图像)
- education(教育)
- financial(金融)
- government(政府)
- health(健康)
使用方式
加载完整数据集
python from datasets import load_dataset data = load_dataset("DigitalUmuganda/Afrivoice_Swahili")
加载分类数据集
python from datasets import load_dataset data = load_dataset("DigitalUmuganda/Afrivoice_Swahili", name="health")
许可信息
所有数据集均采用知识共享许可协议(CC-BY-4)许可。
搜集汇总
数据集介绍

构建方式
在斯瓦希里语自动语音识别研究的背景下,Afrivoice_Swahili数据集通过精心设计的众包流程构建而成。数据采集过程中,参与者根据特定领域的图像提示生成语音内容,涵盖农业、健康、教育等七个关键类别。每条数据记录均包含详细的元数据,如说话者年龄组别、性别及地理位置,确保了数据来源的多样性和真实性。音频文件与文本转录严格对齐,并经过标准化处理,去除了标点与大小写差异,为模型训练提供了高质量的语言资源。
特点
该数据集凸显出多维度标注的显著特点,不仅提供原始文本和标准化转录,还集成说话人 demographic 信息及图像类别标签。其语音样本覆盖肯尼亚内罗毕等地的不同年龄层和性别使用者,真实反映了斯瓦希里语的地域变体及社会语言特征。数据规模丰富,每个样本均附带精确的时长记录和语境描述,适用于跨领域、多任务的语音处理研究,尤其支持口音适应和领域特异性建模。
使用方法
研究人员可借助 Hugging Face `datasets` 库便捷加载该数据集,通过调用 `load_dataset` 函数实现一键下载与本地预处理。支持整体加载或按领域类别(如health、agriculture)筛选使用,灵活适配不同实验需求。数据实例以结构化字典形式呈现,包含音频路径、转写文本及元数据字段,便于直接接入语音识别训练流程,支持端到端模型开发与评估。
背景与挑战
背景概述
非洲语言语音数据集Afrivoice_Swahili由DigitalUmuganda研究团队于2025年创建,专注于斯瓦希里语的自动语音识别研究。该数据集涵盖农业、教育、金融、政府、健康等多个领域,通过采集肯尼亚内罗毕等地的真实语音样本,旨在推动低资源语言语音技术的发展。其多领域标注和人口统计信息的完整性,为语音识别模型在多样化应用场景中的泛化能力提供了重要支撑,对促进非洲地区语言技术平等具有深远影响。
当前挑战
该数据集致力于解决斯瓦希里语自动语音识别中的低资源语言技术挑战,包括方言变异、背景噪声干扰以及领域专业术语的准确识别。在构建过程中,面临语音样本采集的地理分布均衡性、说话人年龄与性别代表性平衡,以及多领域图像提示与语音转录的一致性校验等难题,这些因素均增加了数据标注与质量控制的复杂度。
常用场景
经典使用场景
在斯瓦希里语自动语音识别研究中,Afrivoice_Swahili数据集为构建端到端语音识别模型提供了关键支持。该数据集通过涵盖教育、医疗、农业等七大领域的语音样本,使研究者能够训练深度神经网络模型来准确转换语音信号为文本内容。其标注数据包含说话人年龄、性别及地理位置等元数据,为多维度语音特征分析奠定了坚实基础。
实际应用
在实际应用层面,该数据集支撑了东非地区的智能语音助手开发,特别是在教育领域的语言学习系统和医疗保健的语音交互界面中发挥重要作用。金融机构利用其训练的模型开发了语音银行服务系统,政府机构则应用于多语言公共服务平台。这些应用显著提升了斯瓦希里语使用者的数字服务体验。
衍生相关工作
基于该数据集衍生的经典工作包括多模态语音识别框架的开发,其中结合图像提示的语音生成技术取得显著进展。在语音技术公平性研究领域,该数据集支持了针对年龄和性别因素的语音识别偏差分析。此外,该数据还催生了多个斯瓦希里语语音合成项目,为非洲语言技术生态系统的完善提供了重要支撑。
以上内容由遇见数据集搜集并总结生成



