Kirundi_Open_Speech_Dataset
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/samandari/Kirundi_Open_Speech_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个为Kirundi语言创建的第一个大规模开源语音和文本数据集,旨在促进语音识别、文本到语音、机器翻译和语音翻译等应用的开发。
This is the first large-scale open-source speech and text dataset created for the Kirundi language, designed to facilitate the development of applications such as speech recognition, text-to-speech, machine translation, and speech translation.
创建时间:
2025-11-11
原始信息汇总
🇧🇮 Kirundi Open Speech & Text Dataset 数据集概述
项目背景
Kirundi语言使用人数超过1200万,但仍属于低资源语言,被现代AI系统忽视。该项目旨在创建首个全面的、开源的Kirundi语音和文本数据集。
目标应用
- 🎙️ 语音转文本(ASR):进行中
- 🗣️ 文本转语音(TTS):计划中
- 🌐 机器翻译:计划中
- 🎧 语音翻译:计划中
数据集结构
元数据架构
| 列名 | 类型 | 描述 | 示例 |
|---|---|---|---|
| file_path | 字符串 | 音频文件相对路径 | clips/rn_0001.wav |
| kirundi_transcription | 字符串 | Kirundi句子 | Amahoro yImana abane nawe |
| french_translation | 字符串 | 法语翻译 | Que la paix de Dieu soit avec toi |
| speaker_id | 字符串 | 匿名说话者标识 | speaker_001 |
| age | 字符串 | 年龄组 | 20s, 30s, 40s+ |
| gender | 字符串 | 性别 | male, female, other |
目录结构
Kirundi_Dataset/ ├── README.md ├── metadata.csv ├── clips/ └── scripts/ ├── append_to_csv.py ├── scrapping_kirundi_words.py └── kirundi_prompts_scraped.txt
贡献方式
文本贡献(通过GitHub)
- 添加Kirundi句子到kirundi_prompts_scraped.txt文件
- 运行脚本添加到metadata.csv
- 提交GitHub Pull Request
翻译贡献(通过GitHub)
- 为metadata.csv中的空翻译列提供法语翻译
- 提交GitHub Pull Request
音频录制(通过Hugging Face)
- 录制Kirundi语音
- 保存为WAV或MP3格式
- 更新metadata.csv
- 提交Hugging Face Pull Request
技术规范
音频格式要求
- 主要格式:WAV(未压缩)
- 替代格式:MP3(高质量)
- 采样率:16kHz或22.05kHz
- 声道:单声道
- 位深度:16位
录制标准
- 环境:安静房间,无背景噪音
- 麦克风:头戴式麦克风或智能手机
- 说话风格:自然、清晰发音
- 准确性:按原文精确朗读
项目路线图
发展阶段
| 阶段 | 目标 | 状态 | 进度 |
|---|---|---|---|
| 阶段1 | 文本收集(10,000+句子) | 进行中 | 5% |
| 阶段2 | 法语翻译 | 计划中 | 0% |
| 阶段3 | 音频录制(20+小时) | 计划中 | 0% |
| 阶段4 | 模型训练 | 计划中 | 0% |
| 阶段5 | 公开发布 | 未来 | 0% |
当前统计
- 📝 总句子数:180+
- 🎤 音频录制:0
- 🌐 翻译数:0
- 👥 贡献者:增长中
许可证
- 🔧 代码和脚本:MIT许可证
- 📊 数据集:CC BY 4.0许可证
相关链接
- GitHub仓库:https://github.com/Sama-ndari/Kirundi_Dataset
- Hugging Face数据集:https://huggingface.co/datasets/samandari/Kirundi_Open_Speech_Dataset
搜集汇总
数据集介绍

构建方式
在低资源语言技术发展的背景下,Kirundi开放语音与文本数据集采用社区驱动的协作模式构建。通过GitHub平台收集基隆迪语文本及法语翻译,同时在HuggingFace平台专门收录语音数据。构建过程遵循严格的标准化流程,包括文本清洗、翻译验证和音频录制规范,所有数据通过元数据文件进行统一管理,形成完整的语音-文本对齐语料库。
特点
作为首个大规模基隆迪语开放数据集,其显著特征体现在多模态数据架构上。数据集包含纯净的基隆迪语文本、精准的法语翻译以及符合专业标准的语音录音,每条数据均附带说话人年龄、性别等元信息。这种结构化设计特别适用于低资源语言的跨语言研究,为语音识别、机器翻译等任务提供了珍贵的训练资源。
使用方法
研究人员可通过双平台协作机制使用该数据集。文本数据需通过GitHub仓库获取并遵循CC BY 4.0许可协议,语音数据则通过HuggingFace数据集库加载。使用前需仔细阅读技术规范文档,确保符合16kHz采样率、单声道等音频标准。数据集支持端到端的语音处理流程,可直接应用于基隆迪语的自动语音识别和文本转语音系统开发。
背景与挑战
背景概述
在低资源语言技术发展领域,基隆迪语作为布隆迪官方语言拥有超过1200万使用者,却长期面临数字资源匮乏的困境。该数据集由Sama-ndari团队于2023年发起,是首个面向基隆迪语的大规模开源语音文本数据集。其核心目标在于构建覆盖自动语音识别、文本转语音及机器翻译等多模态任务的基础资源,通过社区协作模式推动非洲语言在人工智能时代的数字化转型,为语言技术公平性提供重要支撑。
当前挑战
该数据集需应对双重挑战:在领域问题层面,基隆迪语作为黏着语具有复杂的形态结构和有限的语言标注规范,导致语音识别系统面临音素分割与声学建模困难;在构建过程中,需克服母语者分布分散导致的录音环境标准化难题,同时确保文本转录与法语翻译的双语对齐质量。社区驱动的协作模式还需建立严格的数据验证机制,以维持跨模态数据的一致性。
常用场景
经典使用场景
在低资源语言技术开发领域,基隆迪语开放数据集为语音识别系统构建提供了核心训练素材。该数据集通过社区协作方式收集大量基隆迪语标准发音样本,配合精准的文本转录数据,为端到端自动语音识别模型训练奠定基础。其标准化的音频格式与文本标注体系,使得研究者能够直接应用于声学模型与语言模型的联合优化。
实际应用
在布隆迪及周边地区实际应用中,该数据集支撑的语音技术正逐步改变当地数字化服务生态。基于该数据训练的语音转写系统可应用于教育领域的智能教学助手、医疗机构的语音病历录入,以及政府服务的多语言信息平台。这些应用显著降低了数字鸿沟,为1200万基隆迪语使用者提供了母语环境下的智能化服务入口。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作,包括基于迁移学习的低资源语言语音识别框架、多任务学习的语音合成系统,以及基隆迪语-法语神经机器翻译模型。这些工作通过创新性地利用有限标注数据,构建了适用于低资源场景的端到端语音处理管道,为其他濒危语言的数字化保护提供了可复现的技术范式。
以上内容由遇见数据集搜集并总结生成



