Afrivoice_Kinyarwanda

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/DigitalUmuganda/Afrivoice_Kinyarwanda

下载链接

链接失效反馈

官方服务：

资源简介：

非洲语音基尼亚鲁旺达语音识别数据集（Afrivoice Kinyarwanda ASR dataset），包含农业、教育、金融、政府和健康五个领域的图像、音频描述和转录数据。

创建时间：

2025-09-08

原始信息汇总

Afrivoice Kinyarwanda ASR 数据集概述

数据集基本信息

名称：Afrivoice Kinyarwanda ASR dataset
语言：基尼亚卢旺达语（rw）
许可证：CC-BY-4.0
任务类别：自动语音识别（ASR）
标签：ASR、STT、RW、KIN
规模：100K < n < 1M

数据集描述

每个数据点包含一张JPEG图像、一个描述图像的音频WAV文件（可用时包含音频转录文本）。

领域	总时长（小时）	转录时长（小时）	总片段数	数据集总大小（GB）
农业	343.16	325.55	62,392	17.5
健康	992.39	937.13	179,219	53
金融	909.56	879.36	166,314	49.09
政府	493.11	458.86	90,778	27.42
教育	123.01	108.60	23,045	6.51
总计	2861.25	2709.52	494,101	153.51

数据集结构

配置

agriculture
education
financial
government
health

数据字段

creator（字符串）：录音客户端ID
image_path（字符串）：图像文件路径
audio_path（字符串）：音频文件路径
transcription（字符串）：用户需要朗读的句子
age（字符串）：说话者年龄
gender（字符串）：说话者性别
project_name（字符串）：项目名称
locale（字符串）：说话者地区
year（字符串）：录音年份

数据分割

每个配置包含训练集、验证集和测试集分割。

使用方式

python from datasets import load_dataset data = load_dataset("DigitalUmuganda/Afrivoice_Kinyarwanda")

数据创建信息

标注创建方式：众包
语言创建方式：众包

许可信息

所有数据集均采用知识共享许可协议（CC-BY-4.0）。

搜集汇总

数据集介绍

构建方式

在卢旺达语自动语音识别领域，Afrivoice_Kinyarwanda数据集通过众包方式系统性地收集了涵盖农业、教育、金融、政府和健康五大领域的多模态数据。数据构建过程包含图像描述任务，参与者根据JPEG图像内容录制对应的WAV格式音频，并辅以人工转录文本，最终形成包含图像-音频-文本三元组的标准化数据结构。数据集采用分片存储架构，通过manifest文件索引管理近50万条数据实例，确保了数据组织的规范性与可扩展性。

特点

该数据集显著特征体现在其领域多样性和多模态融合架构，总计2861.25小时的音频数据覆盖了卢旺达社会生活的核心领域，其中转录文本覆盖率高达94.7%。每个数据实例包含说话人年龄、性别、地域等元信息，为语音模型的社会语言学分析提供丰富维度。数据规模达153.51GB，采用分领域配置管理，支持跨领域的对比研究与迁移学习，其CC-BY-4.0许可协议保障了学术使用的开放性。

使用方法

研究者可通过HuggingFace datasets库的load_dataset函数直接加载数据集，指定领域配置参数即可访问特定领域的分片数据。数据实例以字典形式呈现，包含音频路径、图像路径、转录文本及说话人元数据等字段，支持端到端的语音识别模型训练与多模态学习任务。数据集已预置训练集、验证集和测试集划分，用户可通过split参数灵活调用不同数据子集，配套的缓存机制确保大规模数据的高效读取与处理。

背景与挑战

背景概述

非洲语言资源建设在自然语言处理领域具有重要战略意义，Afrivoice_Kinyarwanda数据集由DigitalUmuganda团队于2023年构建，专注于卢旺达官方语言基尼亚卢旺达语的语音识别研究。该数据集涵盖农业、医疗、金融、政务和教育五大领域，包含超过2800小时的语音数据和49万条标注样本，采用众包方式采集多模态数据（图像-语音-文本三元组），为低资源语言的自动语音识别系统开发提供了重要基础。

当前挑战

该数据集致力于解决低资源语言语音识别中的领域适应性问题，其挑战主要体现在方言变体处理、专业术语识别和噪声环境下的语音理解。构建过程中面临标注质量控制的难题，需要协调众包工作者对基尼亚卢旺达语不同方言变体的准确转写，同时确保图像描述与语音内容的一致性，以及处理野外采集环境中不可避免的背景噪声和录音设备差异。

常用场景

经典使用场景

在卢旺达语自动语音识别研究中，Afrivoice_Kinyarwanda数据集通过涵盖农业、健康、金融、政府和教育五大领域的多模态数据，为构建跨领域语音识别模型提供了重要资源。该数据集包含图像、音频及转录文本的三元组结构，特别适用于训练端到端的语音识别系统，尤其在低资源语言处理领域展现出独特价值。研究者可利用其丰富的领域适应性数据，探索方言变异和领域迁移的语音识别挑战。

解决学术问题

该数据集有效解决了非洲语言在自然语言处理研究中数据稀缺的核心问题，为卢旺达语语音识别模型开发提供了大规模标注语料。通过涵盖多个专业领域的语音数据，它支持研究者深入探索低资源语言在跨领域语音识别中的泛化能力问题，同时为多模态学习、语音合成和语言技术公平性研究提供了重要基础。其高质量的人工转录文本更为语音识别模型的评估提供了可靠基准。

衍生相关工作

该数据集已催生多项重要研究工作，包括基于跨领域迁移学习的卢旺达语语音识别系统开发，以及结合图像和语音的多模态表示学习模型。研究者利用其领域划分特性提出了领域自适应算法，显著提升了专业术语识别准确率。此外，该数据集还支持了语音技术伦理研究，促进了关于技术包容性和数字公平性的学术讨论，为非洲语言计算语言学发展奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集