Kirundi_Open_Speech_Dataset

Hugging Face2025-11-18 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/Ijwi-ry-Ikirundi-AI/Kirundi_Open_Speech_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Kirundi开放语音和文本数据集是一个由社区驱动的项目，旨在为基隆迪语创建一个全面的、开源的语音和文本数据集。这个数据集的目标是开发语音识别、语音合成和机器翻译等应用。项目欢迎社区成员在文本、翻译和音频录制方面的贡献。数据集遵循CC BY 4.0数据许可和MIT代码许可。

创建时间：

2025-11-11

原始信息汇总

Kirundi Open Speech & Text Dataset 数据集概述

数据集基本信息

语言: 基隆迪语 (Kirundi) 许可证: CC-BY-4.0 任务类别: 自动语音识别、文本转语音、翻译 数据集名称: Kirundi Open Speech & Text Dataset 标签: 基隆迪语、低资源语言、音频、语音规模: 1K<n<100K

项目背景

基隆迪语使用人口超过1200万，但仍属于低资源语言，缺乏现代AI系统的支持。本项目旨在创建首个全面的开源基隆迪语语音和文本数据集。

目标应用

语音转文本（ASR）：正在进行
文本转语音（TTS）：计划中
机器翻译：计划中
语音翻译：计划中

数据集结构

元数据架构

列名	类型	描述	示例
file_path	字符串	音频文件相对路径	clips/rn_0001.wav
kirundi_transcription	字符串	基隆迪语句子	Amahoro yImana abane nawe
french_translation	字符串	法语翻译	Que la paix de Dieu soit avec toi
speaker_id	字符串	匿名说话者标识	speaker_001
age	字符串	年龄组	20s, 30s, 40s+
gender	字符串	性别	male, female, other

目录结构

Kirundi_Dataset/ ├── README.md ├── metadata.csv ├── clips/ └── scripts/ ├── append_to_csv.py ├── scrapping_kirundi_words.py └── kirundi_prompts_scraped.txt

贡献方式

文本贡献（通过GitHub）

添加基隆迪语文本到kirundi_prompts_scraped.txt
运行脚本添加到metadata.csv
提交GitHub拉取请求

翻译贡献（通过GitHub）

为metadata.csv中的空翻译列提供法语翻译
提交GitHub拉取请求

音频录制（通过Hugging Face）

录制基隆迪语语音
保存为WAV或MP3格式
更新metadata.csv
提交Hugging Face拉取请求

技术规范

音频格式要求

主要格式：WAV（未压缩）
备选格式：MP3（高质量）
采样率：16kHz或22.05kHz
声道：单声道
位深度：16位

录制标准

环境：安静房间，无背景噪音
麦克风：头戴式麦克风或智能手机
说话风格：自然清晰发音
准确性：按原文准确朗读

项目路线图

发展阶段

文本收集：10,000+句子（进行中）
法语翻译：完整数据集翻译（计划中）
音频录制：20+小时录音（计划中）
模型训练：ASR/TTS/MT模型（计划中）
公开发布：开源模型（未来计划）

许可证信息

代码和脚本: MIT许可证
数据集: CC BY 4.0许可证

当前统计

总句子数：180+
音频录制数：0
翻译数：0
贡献者：持续增长中

搜集汇总

数据集介绍

构建方式

在低资源语言技术发展的背景下，Kirundi开放语音数据集通过社区驱动的协作模式构建而成。其构建过程分为三个主要环节：首先从公开渠道收集基隆迪语文本并进行清洗处理，随后由母语者提供高质量的法语翻译以建立平行语料，最后通过分布式录音方式采集符合技术规范的语音样本。整个流程采用双平台协同机制，文本与翻译数据通过GitHub平台管理，而语音数据则依托HuggingFace平台的LFS系统进行版本控制。

特点

该数据集作为首个大规模基隆迪语开放资源，具备多模态与多任务特性。其核心价值体现在覆盖语音识别、文本转语音及机器翻译三大任务领域，每条数据样本均包含基隆迪语文本、法语翻译及对应音频的完整标注。数据集采用标准化元数据结构，完整记录说话人身份、年龄分组和性别信息，为语音模型训练提供丰富的说话人特征。特别值得关注的是其严格的质量控制体系，所有音频样本均遵循16kHz采样率、单声道录制的技术规范，确保数据的一致性与可用性。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集，利用其标准化的数据拆分机制进行模型训练与评估。对于语音识别任务，可基于基隆迪语转录文本构建端到端识别系统；文本转语音应用则可利用音频与文本的对齐关系训练声学模型；机器翻译研究则能借助平行语料开发基隆迪语-法语互译系统。数据集采用CC-BY-4.0许可协议，支持学术研究与商业应用，使用者仅需遵守署名要求即可自由使用、修改和分发衍生作品。

背景与挑战

背景概述

基隆迪语作为布隆迪官方语言，拥有超过1200万使用者，却在人工智能语言资源领域长期处于边缘地位。2023年由Ijwi-ry-Ikirundi-AI社区发起的基隆迪开放语音文本数据集，致力于构建首个大规模开源多模态语言资源库。该项目通过众包方式系统采集基隆迪语语音样本与对应文本，旨在突破低资源语言在语音识别、文本转写及机器翻译等领域的技术壁垒，为非洲本土语言数字化保护提供重要基础设施。

当前挑战

该数据集面临双重挑战：在领域层面需解决低资源语言特有的数据稀疏性问题，包括方言变体收录不足和跨语言对齐困难；在构建过程中遭遇技术性障碍，如音频质量标准化控制、多说话人声纹一致性维护，以及社区协作模式下数据标注质量的统一性保障。此外，基隆迪语复杂的声音系统和缺乏标准音素库，对语音识别模型的声学建模构成显著挑战。

常用场景

经典使用场景

在低资源语言技术开发领域，Kirundi开放语音数据集主要应用于自动语音识别系统的训练与评估。该数据集通过标准化的音频文本配对结构，为构建基隆迪语语音转文字模型提供了核心训练素材。研究人员利用其包含的纯净语音片段和精确转录文本，能够有效训练端到端的声学模型与语言模型，显著提升对基隆迪语特定音素和语调模式的识别准确率。

衍生相关工作

该数据集的发布催生了系列重要研究工作，包括基于迁移学习的低资源语音识别框架、多任务学习的语音翻译模型等。相关成果已延伸至西非语言技术联盟的跨语言预训练项目，并启发类似语种的数据集建设范式。这些衍生工作共同构建起非洲语言技术的生态系统，为全球语言多样性保护提供可复用的方法论。

数据集最近研究