Afrivoice_Swahili_v2

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/DigitalUmuganda/Afrivoice_Swahili_v2

下载链接

链接失效反馈

官方服务：

资源简介：

Afrivoice ASR Swahili数据集是一个面向自动语音识别任务的数据集，包含农业、健康、金融、政府、教育等多个领域的语音数据。该数据集由DigitalUmuganda创建，并提供音频文件及其对应的转录文本。数据集遵循Creative Commons BY 4.0授权。

创建时间：

2025-09-08

原始信息汇总

Afrivoice_Swahili_v2 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 斯瓦希里语 (sw)
名称: Afrivoice ASR Swahili dataset
任务类别: 自动语音识别 (automatic-speech-recognition)
标签: DigitalUmuganda, DU, rw, Swahili, asr, stt, voice, speech

数据规模

领域	总时长（小时）	转录时长（小时）	音频片段数量	数据集大小（GB）
农业	35.19	35.19	5,852	2.6
健康	62.11	62.11	10,315	6.4
金融	118.75	118.75	19,629	16.6
政府	106.41	106.41	17,530	12.1
教育	91.96	91.96	15,204	6.2
总计	414.42	414.42	68,530	43.9

数据集结构

数据字段

creator (字符串): 录音客户标识
project_name (字符串): 项目名称
speaker_id (字符串): 说话者ID
audio_path (字符串): 音频文件路径
image_path (字符串): 图像文件路径
transcription (字符串): 用户被要求朗读的句子
locale (字符串): 说话者的区域设置
gender (字符串): 说话者性别
age (字符串): 说话者年龄
year (字符串): 录音年份

使用方式

使用 datasets 库加载数据集： python from datasets import load_dataset data = load_dataset("DigitalUmuganda/Afrivoice_Swahili")

许可信息

数据集采用知识共享署名 4.0 国际许可协议 (CC-BY-4.0) 许可。

搜集汇总

数据集介绍

构建方式

在斯瓦希里语自动语音识别领域，Afrivoice_Swahili_v2数据集通过系统化的数据采集流程构建而成。该数据集涵盖农业、健康、金融、政府和教育五大领域，总计收集了68,530条语音片段，音频总时长达414.42小时。每条语音数据均配有精确的文本转录，并包含说话人的性别、年龄、地域等元数据信息，所有数据均通过专业标注团队进行质量验证。

特点

该数据集最显著的特征在于其多领域覆盖的广度与深度，五个核心领域的语音数据呈现出丰富的场景多样性。数据样本包含不同性别、年龄段的说话人录音，且所有语音均配有高质量的文本转录和对应的图像路径信息。每个样本均标注了说话人的地域方言特征（locale）和采集时间，为研究斯瓦希里语的语言变体提供了重要基础。

使用方法

研究人员可通过Hugging Face的datasets库快速加载该数据集，使用load_dataset函数即可自动下载并预处理数据。数据集以标准结构化格式提供，包含音频路径、文本转录及说话人元数据等字段，支持端到端的语音识别模型训练。用户可直接提取音频特征与对应文本标签，用于训练或评估斯瓦希里语语音识别系统。

背景与挑战

背景概述

非洲语言语音识别研究长期面临数据资源匮乏的困境，斯瓦希里语作为东非重要交际语言尤其如此。Afrivoice_Swahili_v2数据集由DigitalUmuganda机构于2023年创建，聚焦农业、健康、金融、政府和教育五大领域，收录414小时高质量语音数据。该数据集填补了斯瓦希里语自动语音识别系统训练资源的空白，为促进非洲语言技术发展提供了关键基础设施，对推动多语言人工智能技术普惠具有重要意义。

当前挑战

在语音识别领域，斯瓦希里语面临方言变体复杂性和专业领域术语处理的特殊挑战。数据集构建过程中需克服多领域语料采集的协调难题，包括农业技术术语与医疗专业词汇的准确标注。同时要确保68,530条语音样本在年龄、性别维度上的平衡分布，并解决说话人口音差异导致的语音特征变异问题。音频与文本数据的精确对齐以及噪声环境下的语音质量保障也是关键性技术挑战。

常用场景

经典使用场景

在非洲语言技术研究领域，Afrivoice_Swahili_v2数据集主要应用于斯瓦希里语自动语音识别系统的开发与优化。该数据集覆盖农业、健康、金融、政府和教育五大领域，共计414.42小时的标注音频，为构建跨领域鲁棒性语音识别模型提供了丰富资源。研究人员通过该数据集训练端到端语音识别模型，显著提升了斯瓦希里语语音转文本的准确率。

解决学术问题

该数据集有效解决了低资源语言语音识别研究中数据稀缺的核心问题。通过提供大规模、多领域的斯瓦希里语语音数据，支持了跨领域自适应、方言变异建模以及端到端语音识别架构的创新研究。其高质量标注促进了声学模型与语言模型的联合优化，为非洲语言语音技术研究奠定了数据基础，推动了语言技术公平化发展。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于Transformer的斯瓦希里语端到端语音识别系统、跨领域语音适应技术以及多模态语音-图像联合建模方法。相关成果发表于INTERSPEECH等顶级会议，并衍生出面向其他非洲语言的语音数据收集规范。这些工作共同推动了低资源语言语音技术研究范式的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集